天天看点

WGCNA分析原理、流程与参数选择

作者:生信下的科研人

WGCNA(Weighted Gene Co-Expression Network Analysis,加权基因共表达网络分析)的主要作用是鉴定表达模式相似的基因集合(module)。适用于复杂的转录组数据,通过解析基因集合与样品表型间的联系,绘制基因集合中基因间的调控网络并鉴定关键调控基因(hub)。广泛应用于表型性状与基因关联的研究。

R包WGCNA有完整的英文版应用教程:

WGCNA分析原理、流程与参数选择

基因筛选

基因数量最好在一万以下,五千为宜。筛选标准可以根据需要自行拟定(SangerBox平台可选择不筛选、方差、平均标准偏差、平均值方案进行筛选)。

WGCNA分析原理、流程与参数选择

构建基因关系网络

以基因与基因间的Pearson相关性系数构建基因共表达矩阵。通过加权函数(power,幂指数函数)变换相关系数,形成邻接矩阵(Adjacency Matrix),将矩阵中元素连续化。通过加权函数得到邻接矩阵:

aij=power(Sij, β)=|Sij|β

Sij表示基因i和基因j的Pearson相关系数。β:软阈值

可以看到其中的基因相关关系,经上述幂函数处理后,强化了强相关性,而相关性弱的取β次幂后,相关性明显下降。这种处理方式更具有生物意义。

寻找合适β,使基因表达关系符合无标度网络

无标度网络(Scale-free network):少数节点具有明显高于一般点的度被称为hub,少数hub与其他节点关联,最终构成整个网络。它与随机网络(Random network)的区别是,随机网络每个节点的度相对平均,而无标度网络度数高的节点少、度数低的节点多,更符合生物学特征。

无标度拓扑拟合指数(标度独立性图)是选择软阈值的依据。在指数=0.9以上的β均可作为软阈值,一般默认选择第一个达到0.9的。下图第一个达到0.9的是14,所以将β=14作为软阈值。如果0.9以上没有数值,就降低标准,但最低不能小于0.8。

WGCNA分析原理、流程与参数选择

标度独立性图(R2与β)

当程序找不到最优软阈值时,可以使用经验软阈值:

WGCNA分析原理、流程与参数选择

unsigned的边属性公式: abs(cor(genex, geney))^β;

signed的边属性公式: (1+cor(genex, geney)/2)^β;

sign hybrid的边属性公式:cor(genex, geney)^β(if cor>0 else 0)。

计算表达矩阵中度数为k的节点个数的对数值log(k),以及该节点出现的概率对数log(p(k)),对log(p(k))和log(k)作散点图(二者负相关),对两者间的相关系数做平方(R2),即得到无标度拓扑拟合指数。

构建基因模块

用拓扑重叠(topological overlap measure,TOM)计算基因间关联程度,除了分析两个基因(i和j)之间的关系,还考虑这两个基因与其他基因(μ)间的关系:

WGCNA分析原理、流程与参数选择
WGCNA分析原理、流程与参数选择

基因模块的划分基于基因间的连接稀疏性,将TOM矩阵(Similarity)转化为相异度矩阵(Dissimilarity):

dωij=1-ωij

用基于TOM值的相异度dωij层次聚类建树(当数据>5000时建议使用分步法)。建树参数:

模块大小:即模块最少基因数目(minModuleSize)。

模块合并阈值:即最小合并距离(mincutHeight)。计算模块特征值,利用特征值建树,合并距离近的模块(如Height<0.2)。

敏感性:值越大越敏感(1/2/3/4),鉴定的模块个数越多。

分析得到模块特征值(Epigengene,模块特征向量):模块内所有基因进行主成分分析(PCA),第一主成分的值即为Epigengene,代表该模块内基因表达的整体水平。

模块与表型性状(临床特征)关联分析

模块与表型

基因显著性(Gene significance,GS):基因表达与性状的Pearson相关系数。T检验计算差异表达显著性(P值)。

GS与MM

模块内分析:鉴定具有高GS和高MM的基因。使用GS和MM,可以识别与某性状高度相关的基因,以及感兴趣模块中高度相关的成员。

MM:所有基因表达谱与这个模块Eigengene的相关性,代表这个基因与模块的相关性。如果绝对值接近1,这个基因就与模块高度相关。

GS:基因和表型性状间相关性的绝对值。0表示基因与此性状不相关,1表示高度相关。如果一个模块中所有基因都与这个性状高度相关,那么这个模块也与性状高度相关。

如在深灰色模块中绘制基因显著性和模块成员关系的散点图。MM-GS图的每一个点:

WGCNA分析原理、流程与参数选择

图中的每一个点代表一个基因,横坐标表示基因与模块的相关性,纵坐标表示基因与性状(MS)相关性,可以看出与性状高度相关的基因往往是与这个性状显著相关的模块中的重要元素。

鉴定关键基因

Hub gene:关键基因(连接度最多或连接多个模块的基因)。

筛选关键基因:GS、MM、TOM值(weight值)大于阈值(默认0.1)的两个基因认为相关,然后计算每个基因的连接度。即先筛选有足够强度的关系,然后计算连接度。

WGCNA分析原理、流程与参数选择

下载的网络的边、节点数据,可以通过VisANT、Cytoscape、Gephi等软件绘图进行可视化。

继续阅读