天天看點

單細胞測序之基本的資料處理基本流程

參考文獻:

Armand EJ, Li J, Xie F, Luo C, Mukamel EA. Single-Cell Sequencing of Brain Cell Transcriptomes and Epigenomes. Neuron. 2021 Jan 6;109(1):11-26.doi: 10.1016/j.neuron.2020.12.010. PMID: 33412093; PMCID: PMC7808568.

Amezquita, R.A., Lun, A.T.L., Becht, E. et al. Orchestrating single-cell analysis with Bioconductor. Nat Methods 17, 137–145 (2020). https://doi.org/10.1038/s41592-019-0654-x(連結:http://bioconductor.org/books/release/OSCA/index.html)

單細胞測序的資料集是一個高維的矩陣(含有諸多行和諸多列)。是以與一般的bulk 測序相比,其對于處理算法和工具的要求更高。之前在bulk測序分析中使用的一些軟體方法,不再适用于單細胞測序。而且單細胞測序資料的特點又進一步使得我們可以從中挖掘出正常的bulk測序所不能得到的資訊。也是以顯示出了單細胞測序技術産生發展的必要性。

在本文就結合自己對這個技術的了解,梳理目前單細胞測序的一般流程及其結果。

後面我們會結合具體的資料,對該操作流程的每一個步驟作進一步的了解。

一、質控、比對,定量(上遊的操作)

首先檢查測序reads的品質(用fastqc)。對測序品質不好的資料進行剔除處理。(這個品質不好指的是什麼樣的一種情況呢?比如?)

然後将測序得到的reads比對到參考基因組上(用bowtie軟體),如果reads能夠比對到基因組上,那比對到的是什麼序列?(比對之後期望得到的結果是什麼?需要組裝嗎?我好像在概念上和基因組的組裝那部分搞混了?)

在這個過程中有必要通過設定一定的門檻值,移除一些低品質的細胞或者reads。

可能存在的pitfalls(隐患):(1)建庫的低複雜性:RNA/DNA捕獲效率低下、線粒體RNA高度污染、DNA甲基化分析中亞硫酸氫鹽轉化不完全。

這一步處理得到的是一個行為基因,列為細胞的二維矩陣。

二、特征選擇和降維

簡單的描述一下,我對于特征選擇的了解。我覺得特征選擇就是從已有的特征空間中選擇最具有代表性的特征。這個代表性怎樣去解釋呢,就相當于可以明顯的區分兩類樣本的特征。舉個例子,能夠明顯的區分黃豆和黑豆的特征是什麼?顔色。

在得到的二維矩陣中,特征空間就是合格表達的基因(非常多)。然後特征之間的相關性(基因表達之間的相關性)降低了資料内在的特征的數量。

通過特征提取與特征選擇方法,可以簡化後續的資料分析。

主要的步驟包括:(1)低表達量的、低變異的特征去除。(2)線性的投射(PCA)将上千個次元降低到50~100個特征(具體的數目自己可以設定)。

三、減少資料的稀疏性

單細胞測序所得到的矩陣是一種比較稀疏的矩陣(即大多數的基因的表達值都為0)。

資料擴散(data diffusion)的預處理可以幫助對抗稀疏性,進而可以提高可視化和聚類分析的效果。

四、雙峰(Doublets)

雙峰(doublets):錯誤的将兩個或者多個細胞的資料整合在一起(存在的實體條件:在同一個液滴中捕獲的細胞或者多個細胞偶然間用同一個barcode【參見具體的實驗過程】)。

雖然資料污染在某種程度上可以被計算手段移除,但是由于真實的細胞類型的數量是未知的,是以我們對于結果應該保持謹慎。

通過單細胞測序得到的細胞的類型需要被其他的技術手段輔助證明,如空間轉錄組。

五、可視化

有用的可視化将細胞嵌入到二維或三維空間中,優化細胞的布局,使其互相距離接近高維資料的距離。

但是這種地維化的處理并不一直是完美的,它們是高維資料扭曲且非獨特性的展示。這種方法,隻能用于探索,但是不能用于檢驗假設或者得出結論。

六、離散聚類與連續潛在因子

對于單細胞測序資料最簡單的描述是以離散聚類或者是不同的分子标簽的細胞群,譬如層次聚類。但是聚類分析本身并不提供對生成的細胞類型提供統計可靠性以及生物學真實性的證據。

在大腦發育的過程中出現連續的軌迹。軌迹或者僞時間分析嘗試着去評估單細胞之間的連續的關系。有絲分裂後的神經元的連續梯度可以反映從椎闆到皮層區域的空間分布或者是功能特性。能夠識别神經元群體中連續的離散的變異的方法是目前研究的核心。

七、多套資料集之間的計算整合

要弄清楚的一個概念:

batch effects:與我們實驗中感興趣的因素無關的其它變量對實驗結果産生的影響。比如,執行實驗的人員,執行實驗的時間。

有一些參數法的方法以及非參數化的方法可用于盡可能的過濾批次效應。

一些參數化的方法,如Seurat包中的近似典型相關分析(CCA),無負矩陣分解(NMF),将細胞從多個資料集中投影到一個共有的,低維的空間中,然後可以被直接的比較,聚類和分析。

非參數化的方法,如共同近鄰(MNN)也可以将不同資料集之間的細胞連接配接起來。不需要學習普通空間中的線性或者非線性的嵌入。

這些技術将一個資料集中的細胞與另一個資料集之間的細胞緊密的比對起來。

關于批次效應的更多的具體的處理方法,參見連結:https://www.plob.org/article/22574.html#:~:text=Batch%20effects%20are%20sub-groups%20of%20measurements%20that%20have,two%20technicians%20were%20responsible%20for%20different%20subsets%20

八、叢集檢驗

對于類群的統計學顯著性或者再現性的分析幫助定義适當的群集分辨率,提供一種客觀的标準,解決張力(分散的趨勢)與拉力(聚攏的趨勢)之間的經典性沖突。

嚴格的細胞類型可複制性測試使用從一個或多個資料集中學習到的細胞類型的轉錄組學特征來在一個獨立的資料集中預測細胞的身份,提供量化比對的統計分數。

表觀基因組特征可以進一步驗證細胞類型的差異,并有助于剖析它們的分子調控。

九、下遊分析

識别細胞之間,樣本之間或者不同的操作條件之間的差異表達基因。

但是不同的計算方法在預測差異表達之間有很大的不同。特異性适用于單細胞測序的計算方法不一定适用于bulk測序。

單細胞測序之基本的資料處理基本流程

單細胞測序的工作流程