天天看點

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

作者:紀實冊
兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

文丨紀實冊

編輯丨紀實冊

小熊貓是一種神秘的動物,很難根據其形态進行分類。它生活在印度,尼泊爾和中國的部分地區,具有明顯的紅白色和條紋,濃密的尾巴。它有幾個綽号,如“熊貓”、“貓熊”、“小熊貓”或“火狐”,一些研究人員認為A. fulgens是基于幾個實體特征的大熊貓的親戚。

這些包括幾乎完全的竹子飲食,并且具有擴大的放射狀籽骨,它們用于加工竹子。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

由于這些相似之處,大熊貓甚至從小熊貓那裡得名。根據其他意見,A. fulgens已被歸類為Procyonidae家族的成員,還有一些人将小熊貓放入自己的家庭,A. fulgens也有一些獨特的特征:大的顴弓,有力的下颌和複雜的頰齒,遵循P2-3模式。

根據新的遺傳證據,小熊貓有兩種,喜馬拉雅小熊貓和中國小熊貓。由于數量減少,小熊貓是一種瀕臨滅絕的物種。先前基于核和線粒體基因不同組合的研究,對富爾根苜蓿與其他食肉動物的分類關系給出了互相沖突的結果。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

這可能是因為隻分析了幾個線粒體和核基因,而不是整個基因組序列。小熊貓被歸類為原體或原體近親是基于免疫學、DNA-DNA雜交和同工酶證據,基于細胞色素-b貝葉斯分析的系統發育樹,将A. fulgens放在犬科旁邊。

Peng等人将A. fulgens歸類為鼬科動物,将它們放在美洲貂旁邊,或者歸類為mephitid,放在條紋臭鼬旁邊,這是基于對13種連接配接線粒體蛋白的分析,分别基于鄰接和最大似然系統發育方法。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

在對核轉甲狀腺素蛋白基因的三個mtDNA基因和内含子1的研究中,Flynn等人還發現A. fulgens既不是熊,也不是procyonid,也不是mephitid,而是鼬科。

Fulton和Strobeck的另一項研究包括16個線粒體基因和8個核基因,基于<>個弧形動物物種,以犬狼瘡為異常值,将富爾根斯與梅菲炎分枝杆菌關系密切。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

Yu和Zhang研究了核基因β-纖維蛋白原的内含子,以及線粒體基因NADH脫氫酶亞基2在食肉目17個物種中,在他們的結果中,這些研究人員發現,基于對FGB基因内含子4的分析,A. fulgens與procyonids最密切相關。

但是當分析内含子7時,它聚集在小熊座上。基于ND2基因A. fulgens與鼬科聚類的分類,但這些結果的自舉支援很差。當将兩種内含子與IRBP和TTR基因分析相結合時,富爾根斯最接近鼬科。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

Sato等人分析了編碼AOPB、BRCA5、RAG5、RBP1和VWF這五個基因的1.3 KbpDNA片段,發現富爾根苜蓿與原鼬科和鼬科聚集在一起,而不是與臭鼬科聚集在一起。在研究含有APOB、RAG3和IRBP基因的2.1 Kbp片段時,也獲得了類似的結果。

在基因學上,富爾根斯與鼬科共享幾個染色體融合,即F2 + C1p和A1p + C1q 。然而,A. fulgens在其他幾種染色體重排上有所不同,表明它與其他鼬科動物早期分化。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

有趣的是,在這兩個物種中都發現了幾個基因,這些基因顯示出趨同的發展。例如,DYNC2H1和PCNT蛋白氨基酸組成的變化導緻人類和小鼠的多指趾,但在大熊貓和小熊貓中導緻假拇指。

另外三個趨同基因負責更有效地從竹子中攝取營養,這也構成了竹子飲食的很大一部分。其他四個基因ADH1C,CYP3A5,CYP4F2,也能夠在大熊貓和小熊貓中更有效地利用維生素A和B12以及花生四烯酸,竹子中沒有或非常低。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

内含子分析很有用,因為這些序列不受選擇壓力。分析了來自22個食肉動物物種群的16 Kbp核内含子序列,其中有嚴格意義上的鼬科,排除了蚜蟲科。然而,這些結果與mtDNA分析的結果相沖突。

由于基于形态學的富爾根蚴分類是模糊的,是以基于全基因組的算法确定該物種的精确分類地位将是有幫助的。為此,使用全基因組K-mer簽名算法分析了五種熊種,十一種貓和來自鼬科,Spilogala gracilis以及A. fulgens的基因組,總共28種。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

使用基于基因組學的算法來分析這些生物體的WGS的優點是,它擷取WGS中存在的所有資訊,而不僅僅是基因研究中使用的少數基因。

決定哪些基因是重要的是主觀的,并且可能因研究人員而異。基于全基因組的算法還具有以下優點:由于它們分析的字元數量龐大,是以它們大大減少了随機誤差,使用該算法可以提供關于富爾根A. fulgens的系統發育分類的加法結果。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

雖然WGKS算法可能不是嚴格意義上的系統發育算法,但它仍然可以用于根據物種的WGS将其分類為不同的組。有幾種宏基因組學方法使用 k-mer 分析将下一代讀序列映射到由全基因組序列代表的物種,例如海妖 、樸素貝葉斯分類器和 PhymmBL 。

例如,kraken将讀取序列拆分為k-mers,然後将其映射到分類樹。配置設定給它的讀取次數最多的葉節點/物種被指定為讀取來自的物種。NBC還将讀數拆分為組成N-mers,然後計算屬于特定菌株,物種,屬或其他分類單元的給定N-mer的後驗機率。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

NBC算法和WGKS算法的相似之處在于它們都利用DNA序列的k-mer特征對其進行分類。人們可以将整個基因組序列視為一個非常擴充的讀取序列。

在全基因組序列上使用k-mer方法應該比在讀取序列上給出更準确的結果,因為WGS代表更大的搜尋空間。單個k-mers的出現數量比短讀中要大得多,換句話說,在WGS中,k-mer的“覆寫率”比單個讀取要高得多。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

除了全基因組方法外,使用多個基因的多重比對來補充全基因組分析的結果也是有用的。為此,分析了52種熊、甲芥科、鼬科、原肚科物種以及苜蓿科、富爾根斯和富爾根斯亞尼苣苔屬的線粒體DNA。

mtDNA不僅包含十幾個保守基因,而且這些基因定位在基因組的同一部分,并且在很大程度上遵循相同的順序。mtDNA還含有非編碼DNA,不受選擇壓力,是以更好地反映了物種關系。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

線粒體基因将更有利于這種分析,而不是人為地将來自基因組不同部分的基因連接配接在一起,這些mtDNA序列使用EBI網站上的線上MUSCLE工具進行比對,還使用鄰域連接配接方法以及使用自舉值的最大似然方法檢查物種關系。

WGS的聚類前分析

本分析中使用的物種清單、生成的 PCC 矩陣、叢集和統計資料可以在線上附加檔案 1 中看到。霍普金斯統計量為 0.9,這意味着資料集對于聚類具有非常好的品質。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

剪影圖給出了三個聚類的最大平均輪廓寬度為0.82,四個聚類的最大平均輪廓寬度為0.8。研究了兩到七個簇的平均輪廓寬度。唯一的差別是将mephitid,S. gracilis放入自己的組中。

全基因組分析,可以看到三個可見的簇,貓科動物、熊科動物和鼬科,S. gracilis 位于鼬科和小熊科之間。根據結果,富爾根芥子明顯與芥子聚集在一起,盡管平均而言,與所有其他物種相比,它的平均PCC值較低,為0.89±0.03,而芥子的平均PCC值為0.95±0.04。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

這種差異不是太顯着。如果我們将Felis nigripes與其他貓進行比較,它的平均PCC值為0.89±0.02,而貓科動物的平均PCC更高,為0.97±0.03。

然而,我們知道貓是一個單系群體,顯示了所有三個假定分支的最小、平均、最大 PCC,以及 p 值,該值對所有三個組都具有統計意義。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

同樣重要的是,臭鼬物種S. gracilis不會與鼬科聚集在一起。與鼬科相比,S. gracilis的平均PCC值為0.78±0.02,A. fulgens對該物種的PCC值為0.79,而之前報道的鼬科的平均PCC值為0.89,這也表明鼬科和蛾科形成單獨的分支。

大熊貓,Ailuropoda melanoleuca顯然是包括熊座動物在内的一個分支的成員,2.與其他熊類的平均PCC值為0.97±0.003,其他遺傳證據将大熊貓歸類為熊貓科的成員,這包括mtDNA、染色體條帶模式以及血清學和免疫學證據。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

線粒體基因組分析

霍普金斯聚類統計量為0.841,表明序列恒等矩陣具有良好的聚類品質。這五個組的叢集和統計資訊分别在附加檔案 的“叢集”和“統計資訊”頁籤中提供,物種清單、入藏号和此分析的結果也可在 github 中線上獲得。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

分層樹顯示了不同分支的位置。Ursids和Musteloidea形成兩個大分支,分别有15種和37種,在Musteloidea中,除了Mustelidae之外,我們還有三個較小的群體。

第一個由兩個物種的A. fulgens組成。第二個由三種Mephitids組成,S. gracilis,M. mephitis和Conepatus chinga。最後,兩隻Procyonid,Procyon lotor和Nasua nasua組成了第三組,顯示了根據簇數的平均輪廓寬度,兩個簇的平均輪廓寬度為0.51。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

鼬科形成一個定義明确的分支,幾乎所有分支點都支援引導值 100。N. nasua和P. lotor在Mustelidae旁邊形成一個較小的分支。三個Mephitids,C. chinga,M. mephitis和S. putorius也形成一個小分支,與其他分支很好地分開。

NJ方法将Ailurus放在Ursidae旁邊,這表明它們可能形成一個單系群。但是,連接配接Ailurus和Ursidae的節點隻有45的引導值。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

Mustelide,Procyonidae和Mephitidae都形成了自己的分支,其可能性值至少為94%。與NJ樹相反,這裡的Ailurus與Ursidae分開,這表明它也可能形成自己的分支,Ledje等人也發現A. fulgens與所有其他犬形不同,并将其置于自己的單型家族中。

然而,該分析僅基于線粒體12S rRNA基因的分析。Flynn等人也基于對三個線粒體基因的分析得出了類似的結論。另一方面,Peng等人根據對串聯線粒體蛋白的分析,将富爾根斯分類為鼬科。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

算法說明

分析中使用的WGKS算法是一種無比對的k-mer序列比較方法。這些方法涉及物種之間k-mers的統計比較。k-mer是DNA k bp長的片段,可以對應于轉錄因子結合位點的核心片段,重複元件或其他調節元件。

這些元素參與蛋白質結合和基因調控,并且在不同物種中是保守的。與基于對齊的算法相比,使用基于k-mer的無對齊算法的優勢在于,它們處理輸入的速度要快得多,并且不受強加于資料的引導樹的偏倚。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

有關該算法的冗長描述,讀者可以參考Cserhati等人。但是,為了更好地了解,此處提供了簡短的描述,WGKS 算法分為三個步驟。

給定物種基因組中所有可能的k-2,k-1和k-mers,以給出觀察到的發生率O。然後,基于這些觀察到的出現次數,也可以使用以下公式計算預期出現次數E:Ek=O1、k−1∙O2k/O2k−1。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

其中 Ek是 k-mer 的預期出現,O1..k-1是觀察到的 k-1-mer 從位置 1 到 k-1 的出現,O2..k是觀察到的 k-1-mer 從位置 2 到 k 的出現,并且 O2..k-1是觀察到的 K-2-mer 從位置 2 到 K-1 的出現。

分數值 S 可以按以下方式計算:SK−mer=O−EO+E,分數值可以通過三種方式解釋:O≫E:SK−mer→1(ov e r r e p r e snt e d k-m er),O≪E:SK−mer→−1(u n d e r r e p r e s e nt e d k-m er),O=E:SK−mer≈0(r a m d o m ly ocu r ring k-m er)。

即使基因組部分或完全複制,分數值也不會改變,這是因為“觀測值”和“預期”值都将增加重複基因組與重複前基因組的比例。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

最後一步涉及在熱圖中可視化PCC,并使用聚類算法來檢測單系群。例如,可以使用 k 均值聚類算法或中心點之間的分區算法進行聚類分析。

分層樹的構造

使用引導值使用相鄰連接配接和最大似然方法繪制分層樹。兩棵樹都是使用MEGA-X軟體建構的,參數設定為預設值。

對于NJ方法,使用了最大複合似然模型。1000 個引導複制用于建構這兩棵樹。對于ML方法,使用Tamura-Nei模型以均勻速率使用。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

線粒體DNA分析,使用預設參數對齊熊,mephitid,mustelid,procyonid物種和兩個A. fulgens物種的8個完整的線粒體基因組序列。序列機關矩陣來自使用BioEdit版本7.2.5的比對。

結論

根據WGKS的分析,A. fulgens可能屬于Mustelidae。該物種也聚集在遠離S. gracilis的地方,表明鼬科和蜥蜴屬于單獨的分支,這也得到了mtDNA結果的加強。

這是基于全基因組資料,而不是以前隻涉及少數基因的互相沖突的結果,其中一個甚至在同一基因的兩個不同外顯子中。這證明了WGKS算法的實用性,該算法采用整體方法來分析WGS。

兩隻大熊貓的尾巴,小熊貓和大熊貓的全基因組k-mer特征分析

mtDNA結果以及最大似然樹似乎将A. fulgens歸入單系組。另一方面,A. melanoleuca屬于小熊,如WGS結果以及mtDNA結果以及NJ和ML樹一緻顯示的那樣。基于鄰域連接配接方法,Ailurus似乎可以與熊形成單系群,但自舉值太低,無法确定地說

參考文獻

【1】弗林 JJ, 内德巴爾馬, 德拉古 JW, 哈尼卡特 RL.小熊貓從何而來?摩爾系統發育埃沃爾。2000;17(2):190–9。

【2】Ledje C,Arnason U.基于線粒體12S rRNA基因分析的犬形食肉動物的系統發育關系。J 摩爾·埃沃爾。1996;43(6):641–9。

【3】魏F,胡毅,朱L,Bruford MW,詹X,張L.黑白和閱讀遍體:大熊貓遺傳學的過去,現在和未來。分子生态學報 2012;21(23)。

【4】阿格納森一世,昆特納M,梅-科拉多LJ。狗,貓和親屬:食肉動物的分子物種水準的系統發育。摩爾系統發育埃沃爾。2010;54(3):726–45。

【5】于林, 張業平.犬形食肉動物的系統發育:來自多個基因的證據。遺傳。2006;127(1-3):65–79。

繼續閱讀