( Principal Component Analysis, PCA) 是将原本鉴定到的所有代谢物重新线性组合,形成一组新的综合变量,同时根据所分析的问题从中选取2-3个综合变量,使它们尽可能多地反映原有变量的信息,从而达到降维的目的。同时,对代谢物进行主成分分析还能从总体上反应组间和组内的变异度。总体样本 PCA 分析采用 PCA 的方法观察所有各组样本之间的总体分布趋势,找出可能存在的离散样本,综合考虑各种因素(样品数,样品珍贵程度,离散程度)决定离散点的除去与否。
提到PCA,一般情况我们都会说这是降维分析。大家多多少少都看过前几年大热的三体,里面的降维攻击大家基本都是有所了解,这里就不多做降维这个词的解释了。虽然PCA图看起来容易简单,但是其后面的机制却不简单。在实际问题中,我们会发现测序数据有很多指标,比如说基因的表达量,SNP数据,SSR数据等等。
如:百泰派克生物平台采用 XCMS 软件对代谢物离子峰进行提取。将 25 个实验样本和 QC 样本提取得到的峰,归一化后进行 PCA 分析, 样本紧密聚集在一起,表明本次试验的仪器分析系统稳定性较好,试验数据稳定可靠,在试验中获得的代谢谱差异能反映样本间自身的生物学差异。
PCA(principal component analysis)主成分分析是生物信息分析的常规分析内容,一般说来,PCA图可以反映表示以下几个问题:
1)检测样本的重复性和离群样本。很显然,正常情况下,生物学重复样本或者同一分组的样本应该是聚在一起的。出现离群样本时要对此进行评估。
2)生物学意义。在重测序中,能表示各亚群间的进化关系。可以观察到三个不同颜色的+表示的样本区域是重叠的,这意味着它们之间具有较多的基因交流或者是同一起源。在转录组测序中,我们可以判断不同的实验处理的效应大小,以及相应的样本面对处理的应对情况等等。PCA图的生物学意义要根据你的研究内容而定。
PCA主成分分析可以应用在任何多样本多变量的数据分析中,在生物信息分析中,基因表达量,SNP,16s多样性等等都可以用PCA进行分析。生态学中的地理调查,多环境指标也常用PCA进行分析。
参考资料来源:图片资料来源--百泰派克生物平台
内容资料来源--百泰派克生物平台、各处网络资料