( Principal Component Analysis, PCA) 是将原本鑒定到的所有代謝物重新線性組合,形成一組新的綜合變量,同時根據所分析的問題從中選取2-3個綜合變量,使它們盡可能多地反映原有變量的資訊,進而達到降維的目的。同時,對代謝物進行主成分分析還能從總體上反應組間群組内的變異度。總體樣本 PCA 分析采用 PCA 的方法觀察所有各組樣本之間的總體分布趨勢,找出可能存在的離散樣本,綜合考慮各種因素(樣品數,樣品珍貴程度,離散程度)決定離散點的除去與否。
提到PCA,一般情況我們都會說這是降維分析。大家多多少少都看過前幾年大熱的三體,裡面的降維攻擊大家基本都是有所了解,這裡就不多做降維這個詞的解釋了。雖然PCA圖看起來容易簡單,但是其後面的機制卻不簡單。在實際問題中,我們會發現測序資料有很多名額,比如說基因的表達量,SNP資料,SSR資料等等。
如:百泰派克生物平台采用 XCMS 軟體對代謝物離子峰進行提取。将 25 個實驗樣本和 QC 樣本提取得到的峰,歸一化後進行 PCA 分析, 樣本緊密聚集在一起,表明本次試驗的儀器分析系統穩定性較好,試驗資料穩定可靠,在試驗中獲得的代謝譜差異能反映樣本間自身的生物學差異。
PCA(principal component analysis)主成分分析是生物資訊分析的正常分析内容,一般說來,PCA圖可以反映表示以下幾個問題:
1)檢測樣本的重複性和離群樣本。很顯然,正常情況下,生物學重複樣本或者同一分組的樣本應該是聚在一起的。出現離群樣本時要對此進行評估。
2)生物學意義。在重測序中,能表示各亞群間的進化關系。可以觀察到三個不同顔色的+表示的樣本區域是重疊的,這意味着它們之間具有較多的基因交流或者是同一起源。在轉錄組測序中,我們可以判斷不同的實驗處理的效應大小,以及相應的樣本面對處理的應對情況等等。PCA圖的生物學意義要根據你的研究内容而定。
PCA主成分分析可以應用在任何多樣本多變量的資料分析中,在生物資訊分析中,基因表達量,SNP,16s多樣性等等都可以用PCA進行分析。生态學中的地理調查,多環境名額也常用PCA進行分析。
參考資料來源:圖檔資料來源--百泰派克生物平台
内容資料來源--百泰派克生物平台、各處網絡資料