天天看點

TransBorrow:通過借用不同拼接工具的拼接結果來引導完成轉錄組拼接

今天給大家介紹的是山東大學(威海)柳軍濤課題組和沙特阿蔔杜拉國王科技大學(KAUST)高欣教授課題組(http://sfb.kaust.edu.sa)發表在Genome Research的一篇文章,“TransBorrow: Genome-guided transcriptome assembly by borrowing assemblies from different assemblers“。RNA-seq技術(轉錄組測序技術)由于其高通量、高精度、低成本,目前仍廣泛應用在各種轉錄組學研究中,并為揭示轉錄組的複雜結構提供了巨大的機會。二代RNA測序技術大大提高了測序的通量,且極大降低了單個堿基的測序成本,但在測序長度上并不能一次性讀完全長轉錄本序列,測序得到的序列隻是轉錄本的一段序列,是以需要通過組裝的方法,将測到的序列拼接成完整的轉錄組。在這項研究中,作者開發了一種新的基于參考基因組的組裝工具——TransBorrow(具體流程見圖1),并在模拟資料集和100餘組不同類型的真實資料集上進行了測試,與現有的經典的轉錄組組裝工具相比,TransBorrow表現出極大的優越性。

TransBorrow:通過借用不同拼接工具的拼接結果來引導完成轉錄組拼接

圖1 TransBorrow算法流程圖

1

背景

RNA-seq技術是一個強大的轉錄組測序技術,對于在整個轉錄組水準識别轉錄表達和測量亞型表達水準具有前所未有的準确性。在真核生物中,由于剪接的選擇性,大多數真核基因通常産生多種異構體。是以,轉錄組研究中最重要的任務之一是準确識别所有表達的轉錄本,以便後續的生物學研究。然而,由于剪接的選擇性,同一位點的轉錄本可以共享外顯子,而同一基因的不同亞型可能具有高度可變的表達豐度,這使得轉錄組組裝問題非常具有挑戰性。此外,RNA-seq運作産生了數以億計的short reads,測序錯誤約為2%。是以,從大量錯誤未知的短序列中計算識别所有表達的轉錄本是一個很大的挑戰。

目前可用的轉錄組組裝方法通常分為兩種政策:基于參考基因組的組裝和從頭組裝。對于轉錄組組裝來說,當跨不同的RNA-seq資料集進行測試時,并沒有哪個組裝工具能始終如一地生成最準确的組裝結果,并且很難确定要針對特定RNA-seq資料集使用哪個組裝工具。在這項研究中,作者開發了一種新的基于參考基因組的組裝工具——TransBorrow,該組裝工具首先建立基于片段回貼的剪接圖,并利用雙端測序資訊從剪接圖中提取可靠的雙端子路。然後,它通過建構所謂的色彩圖從不同的組裝工具中借用可靠的子序列。随後,将這些可靠的子序列和雙端子路徑作為可靠的子路徑映射到剪接圖中,以指導表達的轉錄本正确組裝。最後,作者采用一種新設計的路徑延伸方法,通過在每個剪接圖上以上述可靠的子路徑為種子來搜尋表示轉錄本的路覆寫,路覆寫中的每一條路徑代表一個預測出的表達轉錄本(圖1)。

2

方法

可用資料:本研究所使用的模拟資料集可從https://sourceforge.net/projects/transcriptomeassembly/files/TransBorrow/Data/獲得。所有真實資料集均從NCBI Sequence Read Archive (SRA)下載下傳。

建立剪接圖并提取可靠的雙端子路(圖1A):在這項研究中,表達的轉錄本的組裝是通過傳統的圖模型(剪接圖)完成的。是以,需要首先建構準确的剪接圖,然後利用雙端測序資訊從剪接圖中提取所有可靠的雙端子路。

建立色彩圖并提取可靠的拼接序列(圖1B):TransBorrow的主要貢獻之一是充分利用來自不同組裝工具的組裝結果,這是通過從不同的組裝工具中提取所有可靠的轉錄本子序列來實作的。這些提取的可靠子序列與上述可靠的雙端子路一起作為指導後續組裝過程的有效資訊。

将可靠的子路徑映射到剪接圖(圖1C):組裝過程在剪接圖上執行,所有可靠的雙端子路和拼接子路徑實際上指導了剪接圖上的組裝過程。是以,需要将所有可靠的拼接子路映射到剪接圖中。然後,每個可靠的拼接子路徑對應于剪接圖上的唯一子路徑。将所有可靠的拼接子路映射到剪接圖後,作者将拼接子路和雙端子路合并,并删除備援子路,合并的子路徑稱為可靠子路(請參見圖1C)。這些可靠的子路将作為種子,并指導後續的轉錄本組裝。

以可靠的子路徑為種子搜尋代表表達轉錄本的路覆寫(圖1D):從理論上講,每個可靠的子路徑都對應于表達轉錄本的一個片段,是以應該被至少一個表達轉錄本覆寫。為了實作這個目标,作者首先為每個剪接圖建立一個權重有向圖,然後通過一種新的路徑擴充技術尋找代表表達轉錄本的路覆寫,路覆寫中的每一條路徑代表一個預測出的表達轉錄本。

3

結果

作者分别從以下幾個方面對TransBorrow的性能進行了評估,各種評估結果表明了TransBorrow有效地利用了來自不同工具的組裝結果,并且TransBorrow與其他組裝工具相比,性能得到了極大增強。

3.1在模拟資料上評估TransBorrow的性能

在模拟資料上,作者分别在轉錄層面和基因層面的組裝精度(圖2A-2D),以及對于不同表達水準轉錄本的恢複能力上(圖2E-2G)來綜合評估TransBorrow的性能。

TransBorrow:通過借用不同拼接工具的拼接結果來引導完成轉錄組拼接

圖2 在模拟資料上組裝工具性能的比較

3.2在真實資料上的TransBorrow性能

在真實資料集上,作者通過在轉錄層面的組裝精度比較(圖3),基因層面的組裝精度的比較(圖4),恢複不同表達水準的轉錄本的比較(圖5),以及運作時間和記憶體使用情況的比較來綜合評估TransBorrow的性能。

TransBorrow:通過借用不同拼接工具的拼接結果來引導完成轉錄組拼接

圖3 組裝工具在轉錄層面上對四個真實資料集的準确性比較

TransBorrow:通過借用不同拼接工具的拼接結果來引導完成轉錄組拼接

圖4 組裝工具在基因層面上對四個真實資料集的準确性比較

TransBorrow:通過借用不同拼接工具的拼接結果來引導完成轉錄組拼接

圖5 組裝工具在真實資料上恢複不同表達水準轉錄本的性能比較

3.3 額外的評估

除了上述評估之外,作者在補充材料中評估了所有組裝工具在另外101個RNA-seq樣本上的組裝精度,這些樣本來自7個物種,具體結果可見補充材料中的圖S1-S19.

4

讨論

在這項研究中,作者提出了一種全新的基于參考基因組的組裝工具TransBorrow。在模拟資料集和真實資料集上,與三個同類經典組裝工具相比,TransBorrow始終保持最佳性能。TransBorrow的優越性可以歸因于以下幾點。

  1. TransBorrow嘗試通過利用來自其他組裝工具的不同組裝結果來識别所有表達的轉錄本。

    在此步驟中産生的可靠子序列将作為種子,有效地指導後續的組裝過程。

  2. TransBorrow開發了一個新的圖模型——色彩圖,它是通過合并不同的組裝結果來建構的。

    基于色彩圖,TransBorrow可以從合并後的組裝結果中準确、高效地提取出可靠的子序列。

  3. TransBorrow為每個剪接圖構造一個權重節點圖,其邊權值準确表示剪接圖中每個節點的進出邊之間的正确連接配接。
  4. TransBorrow利用了一種全新設計的路徑延伸政策,通過種子化提取出的可靠子路,疊代選擇最優鄰居進行路徑延伸,進而在每個權重節點圖上搜尋處表示表達轉錄的路覆寫。

盡管我們已經看到了TransBorrow的巨大優勢,但仍存在着一些缺點:

  1. 目前版本的TransBorrow不相容long-read RNA-seq資料集。
  2. 目前版本的TransBorrow在每個單獨的基因座中執行轉錄組組裝,而不考慮嵌合轉錄本的拼接。
  3. 目前版本的TransBorrow是一個基于參考基因組的組裝工具,與從頭組裝不相容。

就TransBorrow的效果而言,在一定程度上取決于借用組裝工具的性能。EvidentialGene,Concatenation和Mikado之類的工具也可以通過組合來自不同組裝工具的組裝結果來執行組裝,這與TransBorrow相似。但TransBorrow與這三個工具不同的是其通過建立剪接圖并在剪接圖上搜尋路覆寫來執行轉錄組組裝,進而充分利用了最原始的測序片段,而來自不同組裝工具組裝結果則有效地為TransBorrow提供了可靠的子路徑,以指導其精确組裝。TransBorrow已被開發成使用者友好的軟體包供相關學者免費下載下傳試用,有望在使用RNA-seq的轉錄組研究的新發現中發揮關鍵作用,特别是在與異常剪接事件和表達水準相關的複雜人類疾病(例如癌症)研究中。

軟體可用網站

https://sourceforge.net/projects/transcriptomeassembly/files/TransBorrow/

參考資料

T. Yu, Z. Mu, Z. Fang, X. Xiu, X. Gao, and J. Liu. TransBorrow: genome-guided transcriptome assembly by borrowing assemblies from different assemblers. Genome Research. Published in Advance August 17, 2020.

doi: 10.1101/gr.257766.119