天天看點

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

關于三代基因測序,你所需要知道的都在這兒!

一、導讀:

在大部分投資者對“二代測序”(NGS)還沒有搞清技術細節的情況下,“三代測序”(3GS)又火了。

6月17日,醫藥闆塊中基因測序相關标的在“三代測序技術獲得重大突破”的新聞影響上出現明顯漲幅,我們也接到較多投資者對相關新聞的背景及觀點的詢問。為此,我們結合各方面資料歸納總結了三代基因測序的發展曆史、原理、優劣勢,以及國内外布局的公司等(也就是說,這是篇三代測序“科普文”)。此外,我們對該英文文獻部分原文進行了意譯,以期能夠對最新的算法和行業技術有粗淺的了解,有不符合原文意思之處,望多多海涵。

新聞背景:

中科院昆明動物研究所研究員馬占山與美國馬裡蘭大學葉承曦博士在基因測序領域的合作再次取得重要突破。合作團隊近日正式釋出了一款代号為 Sparc 的軟體,針對第三代基因測序儀硬體錯誤率高達15%-40%的問題,研發出“基于稀疏分解的線性複雜度算法”,Sparc軟體基于該新算法完成。使用測序深度為30x的Pac Bio 資料, Sparc能夠達到錯誤率低于0.5%;使用更具有挑戰性的Oxford Nanopore資料,Sparc能夠達到和NGS相似的錯誤率。與現行方法相比,Sparc對于一緻序列的計算更加準确,并且節省80%的記憶體和時間。這一重要突破為推進基因測序技術邁向三代技術的産業更新提供了又一關鍵軟體技術。

總體觀點:

我們認為,以Helicos公司的Heliscope單分子測序儀、Pacific Biosciences公司的SMRT技術和Oxford Nanopore Technologies公司的納米孔單分子技術為代表的三代測序技術在經過了多年發展後已經逐漸趨于成熟。盡管當下該技術還有成本偏高、錯誤率較高、生物資訊學分析軟體不夠豐富的問題,但其在讀長、測序速度等方面都具有明顯優勢,三代測序裝置已實作穩定性、小型化,未來随着準确度提升、平行測序能力和酶活性等問題的解決,第三代測序技術是未來發展的重要技術趨勢,實作大規模商業化将是大勢所趨。

具體到Sparc這一算法,根據文獻我們認為其具有幫助提高測序精度、降低測序成本的可能性(特别是混合使用NGS和3GS資料時,或能夠明顯降低成本),值得給予關注。但是否能夠實作商業化引用還有待觀察(其發表的PeerJ期刊以影響因子及投稿命中率衡量并不是一線期刊)。而對于精準醫療闆塊,我們認為,雖然精準醫療在高估值和部分行業事件(如魏則西事件)的影響下表現平平,但也不乏催化劑,2016年3月8日,國家釋出《科技部關于釋出國家重點研發計劃精準醫學研究等重點專項2016年度項目申報指南的通知》。考慮到年初以來相關标的已有較大跌幅,如果後續市場風險偏好提升且有持續催化劑(如新的行業規劃出台或者相關企業獲得國家科技部精準醫學研究重點專項支援),也是值得關注的領域,同時建議關注部分前期未完全發酵的新技術主題(如液體活檢),關注新開源、麗珠集團、潤達醫療、迪安診斷、美康生物。

風險提示:相關标的絕對估值較高,政策催化及技術革新具有不确定性。

二、三代測序行業背景:

1、基因測序技術發展的曆史

1986年,第一台商用基因測序裝置出現,間隔19年,第二代測序裝置出現,從第二代裝置到第三代裝置隻用了5年,說明基因測序裝置更新換代速度加快。第一代測序技術,主要基于 Sanger雙脫氧終止法的測序原理,結合熒光标記和毛細管陣列電泳技術來實作測序的自動化,基本方法是鍊終止或降解法,人類基因組計劃就是基于一代測序技術。第二代測序技術,早期代表平台包括 Illumina 的 Solexa、LifeTechnologies的Solid、羅氏的454平台等,目前二代測序裝置在通量、準确度上都有了較大的提高,同時測序成本也随之大幅度下降,成為商用測序的主流。第三代測序技術又稱為單分子 DNA 測序,即通過現代光學、高分子、納米技術等手段來區分堿基信号差異的原理,以達到直接讀取序列資訊的目的,三代測序裝置在DNA 序列片段讀長上優于二代裝置,但在準确度上較二代裝置差,未來随着技術的改善,三代測序裝置将更為穩定和成熟。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

2、第三代基因測序方法原理

Helicos公司的Heliscope單分子測序儀、Pacific Biosciences公司的SMRT技術和Oxford Nanopore Technologies公司的納米孔單分子技術,被認為是第三代測序技術。與前兩代技術相比,他們最大的特點是單分子測序,其中,Heliscope技術和SMRT技術利用熒光信号進行測序,而納米孔單分子測序技術利用不同堿基産生的電信号進行測序。

PacBio SMRT技術應用了邊合成邊測序的思想,并以SMRT晶片為測序載體,晶片上有很多小孔,每個孔中均有DNA聚合酶。測序基本原理是: DNA聚合酶和模闆結合,4色熒光标記4 種堿基(即是dNTP),在堿基配對階段,不同堿基的加入,會發出不同光,根據光的波長與峰值可判斷進入的堿基類型。DNA 聚合酶是實作超長讀長的關鍵之一,讀長主要跟酶的活性保持有關,它主要受雷射對其造成的損傷所影響。另外,可以通過檢測相鄰兩個堿基之間的測序時間,來檢測一些堿基修飾情況,既如果堿基存在修飾,則通過聚合酶時的速度會減慢,相鄰兩峰之間的距離增大,可以通過這個來之間檢測甲基化等資訊。SMRT技術的測序速度很快,每秒約數個dNTP。但是,同時其測序錯誤率比較高(這幾乎是目前單分子測序技術的通病),達到15%,但好在它的出錯是随機的,并不會像第二代測序技術那樣存在測序錯誤的偏向,因而可以通過多次測序來進行有效的糾錯(代價是重複測序,也就是成本會增加)。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

相關技術确實專業性較強,若文字版難以了解,請移步視訊版本:http://www.le.com/ptv/vplay/24994915.html?ch=baidu_s

Oxford Nanopore Technologies公司所開發的納米單分子測序技術與以往的測序技術皆不同,它是基于電信号而不是光信号的測序技術。該技術的關鍵之一是,設計了一種特殊的納米孔(隻能容納單分子通過),孔内共價結合有分子接頭。當DNA堿基通過納米孔時,它們使電荷發生變化,進而短暫地影響流過納米孔的電流強度(每種堿基所影響的電流變化幅度是不同的),靈敏的電子裝置檢測到這些變化進而鑒定所通過的堿基。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

如果閱讀文字版無法了解的,同樣請移步視訊版(英文):http://v.youku.com/v_show/id_XNjYzMDUxNzY4.html

3、第三代基因測序技術的優勢和劣勢

相比于二代測序,三代測序具有如下優勢:

1)第三代基因測序讀長較長,如 Pacific Biosciences 公司的 PACBIO RS II 的平均讀長達到 10kb,可以減少生物資訊學中的拼接成本,也節省了記憶體和計算時間。

2)直接對原始DNA樣本進行測序,從作用原理上避免了 PCR 擴增帶來的出錯。

3)拓展了測序技術的應用領域,二代測序技術大部分應用基于DNA,三代測序還有兩個應用是二代測序所不具備的:第一個是直接測RNA的序列,RNA的直接測序,将大大降低體外逆轉錄産生的系統誤差。第二個是直接測甲基化的DNA序列。實際上DNA聚合酶複制A、T、C、G的速度是不一樣的。正常的C或者甲基化的C為模闆,DNA聚合酶停頓的時間不同,根據這個不同的時間,可以判斷模闆的C是否甲基化。

4)三代測序在ctDNA,單細胞測序中具有很大的優勢:ctDNA含量非常低,三代測序技術靈敏度高,能夠對于1ng以下做到監測;在單細胞級别:二代測序要把DNA提取出來打碎測序,三代測序直接對原始DNA測序,細胞裂解原位測序,是三代測序的殺手應用。

同時,第三代基因測序也存在一定的缺陷:

1)總體上單讀長的錯誤率依然偏高,成為限制其商業應用開展的重要原因;第三代基因測序技術目前的錯誤率在15%-40%,極大地高于二代測序技術NGS的錯誤率(低于1%)。不過好在三代的錯誤是完全随機發生的,可以靠覆寫度來糾錯(但這要增加測序成本)。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

2)三代測序技術依賴DNA聚合酶的活性。

3)成本較高,二代Illumina的測序成本是每100萬個堿基0.05-0.15美元,三代測序成本是每100萬個堿基0.33-1.00美元。

4)生信分析軟體也不夠豐富。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

4、國内外布局三代測序的公司

國外布局三代測序的主要有Pacific Biosciences、Oxford Nanopore Technologies等公司,2015 年 10 月 27 日,國内公司瀚海基因(Direct Genomics)公布了基于 Helicos 技術研發的專門用于臨床的第三代單分子測序儀 GenoCare 原理樣機。中科院北京基因組研究所與浪潮基因組科學也在共同研制國産第三代基因測序儀。在測序儀價格方面,PACBIO 2011年的第一台三代測序儀PacBio RS在美國價格80萬美金,2015年生産的sequel測序儀價格35萬美金,大幅下降。在測序成本方面,預計未來5年内三代測序能達到100美元全基因組測序的價格。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

目前,三代測序裝置已實作穩定性、小型化,價格也在不斷下降,分析軟體不斷豐富,我們認為随着準确度提升、平行測序能力和酶活性等問題的解決,第三代測序技術是未來發展趨勢,實作大規模商業化将是大勢所趨。

三、原文文獻翻譯縮減版

原文為《Sparc: a sparsity-based consensus algorithm for long erroneous sequencing reads》,鑒于PeerJ期刊2016年6月8日(影響因子為2.183,投稿命中率為52.22%,在各類SCI期刊中屬于比較普通的水準)

摘要:

Sparc軟體通過高效的線性複雜度一緻性算法,将目标基因組區域的序列建構k聚體圖,幫助基因組的從頭組裝。權重最大的路徑最近似于基因組真實序列,通過稀疏分解誘導的算法對序列圖譜不斷重新調整權重,進而得到一緻性序列。Sparc 能夠支援同時使用NGS和3GS資料,極大改善成本和計算方法有效性。

使用測序深度為30× 的PacBio 資料,Sparc能夠達到錯誤率低于0.5%;使用更具有挑戰性的OxfordNanopore 資料,Sparc能夠達到和NGS資料相似的錯誤率。與現行方法相比,Sparc對于一緻序列的計算更加準确,并且節省80%的記憶體和時間。

前言:

與前面幾代測序技術相比,三代測序技術在每個片段能夠提供5-120kb的讀長。然而,根據2012年和2015年兩篇文獻的介紹,Pac Bio測序錯誤率大約為15%(2012年),OxfordNanopore 測序的錯誤率高達40%(2015年),高的測序錯誤率為使用3GS測序進行基因組拼接提出了很大的挑戰。

使用三代測序資料進行基因組的從頭組裝,主要需克服三個瓶頸:1)找到重複序列;2)序列對比;3)序列優化/序列糾錯。高效地糾正這些長錯誤序列是個重大的難題,下圖顯示這三個主要挑戰,其中最後一步是這篇文獻的主要解決的問題:

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

一緻性算法對于基因組拼接非常關鍵,有以下幾個原因:1)一緻性算法是彙程式設計式産生高品質輸出結果的必要部分。2)糾錯程式提高了輸入序列的準确度。每個組裝重疊序列(或者稱為主幹序列-backbone)作為靶序列,每次測序結果作為查詢序列(query sequences)與靶序列對比。另一種情形,每個長錯誤測序結果作為靶序列,NGS或者3GS序列作為查詢序列;通過同時使用NGS資料和3GS資料,即混合組裝方法,是廣泛采用的組裝方法。由于NGS短序列的成本更低、準确率更高,是以将兩種資料結合可以降低成本,并且緩解整個管線的計算壓力。3)最後一個步驟占用了大部分的計算時間,是以,高效的一緻性算法極大地加速了基因組組裝過程。

我們借助了著名的de Bruijn/k聚體圖,針對3GS資料設計了一種更簡便的方法。在我們的sparc算法中,每個節點是一個k聚體,為節省記憶體,同一位置的k聚體進行合并,k聚體之間的連接配接的得分代表連接配接的可靠性,是以,最終得分最高的路徑是最近似于一緻序列。Sparc可以在低記憶體的條件下提供極好的結果,而不用使用其他作圖簡化技術。由于技術的簡便性,此算法相比較主流的3GS測序項目PBdagcon,速度加快五倍,記憶體也節省五倍。此外,由于主流NGS測序資料的準确性(>99%)更高,是以利用成本更低的NGS代替部分高成本的3GS資料是值得的,在混合情形下,Sparc能夠提供高品質的結果。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

實驗方法:

1、搭建原始圖

首先搭建一個原始的k聚體圖,稱為backbone(骨架),即靶序列,k聚體是位置特異的,不同的位置互相獨立。将k聚體配置設定到每個位置占用大量記憶體,特别是在下一個實驗步驟。為了節省記憶體,我們建構一個稀疏k聚體圖,在每g個堿基存儲一個k聚體,進而減少高達1/g的記憶體消耗。同時我們記錄k聚體節點之間的連接配接,連接配接的得分代表相應路徑的置信度。在原始圖中,連接配接的多樣性是1,是以連接配接的得分是1。

2、與靶序列對比,建立全景圖

(i) 如果查詢序列顯示新的路徑,我們建立一個分支,配置設定新的k聚體節點和連接配接。如下圖3b中顯示,當我們将Seq1的最後六個堿基與靶序列對照時,兩個新的連接配接ACC和AAA 的複雜性是1,配置設定一個k聚體節點。(ii) 如果查詢序列和現有序列完美契合,我們不配置設定新的節點,而是增加連接配接的得分,我們也可以從下圖3b中看出,當我們對照Seq1序列的前五個堿基時,節點AC, GG和連接配接 TGG 和原靶序列重合,并且連接配接得分增加1分。當我們和現有圖對照Seq2的最後六個堿基時,節點和連接配接與Seq1重合,連接配接得分增加1分。這個構圖過程和de Bruijn做圖方法相似,但是我們區分了節點以及他們的位置。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

3、調整圖的權重得分

通過上一步驟,得分最高的路徑具有最高的置信度,也就是最接近于真實的序列。然而,直接使用這個結果可能導緻錯誤,一個簡單的例子是長的插入錯誤,為了避免這種情況的發生,我們将連接配接得分減去一部分,減去的這部分取決于覆寫率。同時引入參數b增加可靠連接配接的權重(b=5~10)。

4、輸出結果

實驗結果:

Sparc已經在多種資料集上進行了測試,我們的實驗是基于對PacBio資料集和OxfordNanopore資料集的測試。Sparc是一個堿基水準的一緻性算法,公平起見,我們用我們的程式和最相似的項目PBdagcon(主要用在HGAP和MHAP管線用來糾正序列)做了對比。

兩個程式都輸入一樣的資料,得到組裝骨架和用DBG2OLC收集每一個骨架有關聯的序列。Blasr用來序列對比,最後的一緻錯誤率通過MUMmer3裡的ednadiff方程來計算。所有的實驗都在一個用AMD Opteron2425HE CPUs的工作站(800MHz)。在一些實驗中,我們提供二代和三代測序資料,在這些混合的組合中,50XIllumina彙編重疊群也包含在内,邊界權重增長b=5~10。測序深度為 50X的Illumina提供中等的覆寫度進而允許現成的基于deBruijn圖譜的彙程式設計式來彙編高品質重疊群。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

在PacBio資料集,我們設定k=1,g=1,并運作一緻算法四輪。每一個堿基的錯誤率在1/2/4輪次後在表1和2中分别報告為ERR1,ERR2和ERR4。在第一個實驗中,我們使用大腸杆菌PacBio資料集和用不同的覆寫度測試其準确性。DBG2OLC用10X/30X的測序深度得到的最長骨架分别是1.3Mb和4.6Mb。一個重要的彙編情境就是當我們既有二代又有三代測序資料時,我們發現Sparc可以實作混合彙編,而且使它們都有很高的計算效率和很好的成本效率。兩輪之後,Sparc在混合資料處理方面隻用10X的測序深度就可以達到0.09%的錯誤率,相比PBdagcon的0.64%的錯誤率是一個明顯的飛躍。當用30X的測序深度時,結果正如預期一樣更好(0.02%)。算法運作兩輪以上結果将更加改善,表1和表2中有其各自運作兩輪的時間。

Sparc對大量資料的測序表現更好,我們展示了Sparc和PBdagcon在一個更大的20X的PacBio A.thaliana 資料集 (基因組大小:120 Mbp)。DBG2OLC得到的最長骨架是7.1Mbp。Sparc跑完用了PBdagcon五分之一的時間和記憶體,但卻産生了更精确的結果。這裡我們用一個由MHAP得到的純PacBio全基因用作參考系來計算錯誤率。

在Oxford Nanopore資料集中,考慮到較高的誤碼率我們設定k=2,g=2,運作一緻算法四輪。每一個堿基的錯誤率在1/2/4輪次後在表3中被報告為ERR1/2/4。第一、二行為僅使用Oxford Nanopore(ON)的資料,第三、四行為使用混合資料的結果。

關于三代基因測序,你所需要知道的都在這兒!關于三代基因測序,你所需要知道的都在這兒!

即使原始錯碼率可能高達40%,我們程式的測試錯碼率都低于0.5%。與此相反,非混合資料得到的結果則不那麼有用。在本次測試中最長的骨架是4.6 MBP。兩個程式運作四輪的時間報告在表3中。

Sparc對不同參數相對不是很敏感,是以即使對初用者來說也很容易使用。我們在第二輪變換了參數,隻用PacBio資料。表4中報告了不同k、g相對應的記憶體、時間和結果品質。使用稍大尺寸的k聚體會增加每個堿基測序的準确性,這個效應對多倍基因組更明顯。但是,這也增加了記憶體的使用,因為支鍊節點也相應産生。設定一個大一點的g可以幫助我們減少記憶體的消耗,不同的權重增加的對二代測序資料在混合一緻資料中的影響可以在表5中得見。經驗得出,在不影響準确性的前提下,這個參數被設定為b=5~15比較安全。實踐中,我們将它設為一個比較低的值(b=5~10),進而更好地使用三代測序資料。

實驗結論:

一緻模型是一個重疊-布局-一緻彙程式設計式架構的關鍵組成部分。随着三代測序技術的引入,它的重要性在進一步提高。在這項工作中,我們驗證了一個簡單但是高效的一緻算法:使用k聚體作為基礎子產品和從位點特異的k聚體圖譜可以産出高品質一緻序列,它支援混合測序這一點使得成本效率和計算效率大大提高。該方法可望顯着擴大其在測序糾錯和變異發現方面的應用。一緻測序品質也可以通過平台特異性、信号資訊的整合進一步得到提高。(生物谷Bioon.com)