天天看點

癌症“登月計劃”需要大資料作後盾

作者:孫強 (大資料文摘醫療專欄主編)

奧巴馬總統在不久前的國情咨文中重新闡述了美國要戰勝癌症的信心和決心,副總統拜登更是将之命名為癌症的“登月計劃”。本文将從大資料角度為癌症“登月計劃”做一些分析和闡述。

癌症是什麼

簡單地講,癌細胞是基因發生變異了的人體細胞,這些細胞能逃避人體免疫系統的監管,不受限制的瘋長,最後導緻人體正常器官的衰亡。

早在上世紀70年代,Bishop和Varmus等科學家就發現并證明了第一個癌症基因Src, 該基因的變異可以導緻正常細胞變成惡性良性腫瘤細胞。自那時起,科學家們又陸續發現了上百個和惡性良性腫瘤有密切關系的惡性良性腫瘤基因,人們對惡性良性腫瘤的認識在不斷深化。随着人類平均壽命的不斷提高,癌症的發病率也水漲船高,但我們治療癌症的手段仍然差強人意,癌症死亡率高居不下,成為威脅人類健康和壽命的最大敵人之一。即使象喬布斯這樣的億萬富翁,在死亡率極高的胰腺癌面前也無能為力。科學在飛速發展,人類在幾十年前就登上了月球,但為什麼對癌症卻無能為力呢?

人類基因組、基因測序和癌症基因組圖譜項目(TCGA)

過去幾十年,雖然人們對癌症的科學認識不斷深入,但真正有了質的飛躍,還是近幾年的事情。2003年是現代生物學上值得紀念的一年,人類基因組測序及繪圖在這一年得以完成。此後的十幾年,基因組測序技術得以蓬勃發展,測序效率上升之快,甚至超越了摩爾定律,同時測序成本則呈指數型下降:人類基因組計劃前後花費大約30億美金,時至今日,完成一個人的基因組測序,成本已經降到1000美金左右。随着第三代測序技術的成熟,效率會繼續提高,成本則繼續下降。

癌症“登月計劃”需要大資料作後盾

測序技術的飛速發展,給系統性研究癌症細胞的基因組及基因組變異帶來了可能。其中一個典型的代表就是“癌症基因組圖譜(The Cancer Genome Atlas, 簡稱TCGA)”項目。該項目始于2006年,由美國政府牽頭,前後花費了兩億多美金,共收集了10000多個病人的資料和基因組資料,除測序外,還收集了基因拷貝數變化、基因表達、基因甲基化、基因調控及蛋白表達水準等分子生物學資料,先後使用了10多個不同的技術平台,更難能可貴的是該項目把癌症研究領域最頂尖的科學家集合在一起,采用類似衆籌的方式來分析資料,進而得到最準确的研究結果。項目收集的資料現在高達幾個PB,覆寫了30多種不同的癌症疾病。

關于該項目的詳細資訊,可以參考以下連結:

http://cancergenome.nih.gov (TCGA官網)

http://en.wikipedia.org/wiki/The_Cancer_Genome_Atlas(TCGA Wiki Page)

癌症細胞變異的複雜性癌症的異質性(heterogenity)

TCGA項目已經接近尾聲,從現有的研究結果來看,喜憂參半:作為一個大型癌症基因組研究項目,TCGA使得我們對癌症的研究和了解深入了很多,這是令人高興的方面;但同時TCGA的資料讓我們看到了癌症的複雜性,遠比我們以前想象的還要高很多。

舉個簡單例子,下圖是顯示了TCGA130位膀胱癌病人的突變頻譜,幾乎沒有病人有完全相同的變異基因及變異數量。

癌症“登月計劃”需要大資料作後盾

- 在TCGA不同膀胱癌病人中捕捉到的基因變異數:少則10幾個變異,多則近2000個不同變異

癌症的異質性及複雜性已經受到越來越多的科學家的重視,這也是癌症臨床治療所面臨的最棘手的問題。以前所認為的相同器官起源的惡性良性腫瘤都是單一的、類似的觀點有很大的誤導性,更多的惡性良性腫瘤是由很多不同的亞惡性良性腫瘤克隆組成的,并且惡性良性腫瘤本身在發育及遷移的過程中仍然在不斷進化,這也是惡性良性腫瘤容易産生抗藥性,并且極容易複發的根本原因。臨床已經有很多例證,癌症複發時,往往存在新的突變頻譜,帶來耐藥性,導緻最終不治。

去年北京基因組研究所和美國芝加哥大學合作發表了一篇PNAS論文,在一塊3.5厘米的肝癌組織中的不同位點取樣,然後進行深度基因測序,竟然發現了總數高達1億的突變位點。這一突變的複雜性相較于TCGA資料來說,又上了一個量級。随着單細胞測序技術的成熟,相信不久的将來我們會對惡性良性腫瘤細胞變異的複雜性有更好的了解。

癌症“登月計劃”需要大資料作後盾

惡性良性腫瘤異質性說明:惡性良性腫瘤“糖豆機”不是由單一的“白球”組成的,更多的惡性良性腫瘤像是圖中右側的糖豆機,每個惡性良性腫瘤都是有很多不同變異的亞惡性良性腫瘤克隆組成的複合體

癌症大資料現狀:精準醫療引千帆競發

正是由于惡性良性腫瘤細胞變異的複雜性及惡性良性腫瘤的異質性,每個病人的惡性良性腫瘤都不盡一樣,惡性良性腫瘤治療需要更準确的診斷和可定制的治療手段。2015年,奧巴馬總統提出了“精準醫療”計劃- 雖然該計劃涵蓋的外延更廣泛,但計劃的實施無疑是從癌症治療開始的。著名的基因組研究所Broad Institute的所長Eric Lander博士認為,TCGA隻是個開始,要戰勝癌症,每一種疾病都需要至少10000個病人的樣本、臨床資料及基因組資料,他還特意強調了要全基因組測序。這将是個巨大的工程。

除了政府及各大癌症中心和科研機構,這一市場的巨大潛力也吸引了很多公司來搶灘:位于Boston的Foundation Medicine(公司網址 https://www.foundationmedicine.com)已經先行一步,在癌症基因診斷領域小有名氣,積累了大量的臨床資料;美國著名的測序公司Illumina最近則宣布成立子公司Grail, 聯手比爾蓋茨及Jeff Bezos,全力打造癌症外周血測序診斷的”聖杯”;基因組研究的急先鋒CraigVenter博士當然也不甘落後,新打造的公司Human Longevity Inc全力介入癌症基因組測序及診斷中,并且從谷歌挖掘了優秀的資料科學家,要用機器學習和深度學習的手段來分析癌症大資料,破譯癌症密碼。

征服癌症, 中國需要自己的癌症大資料

癌症問題在中國也是日益嚴重的大問題:人口的老齡化,環境的污染,都使得癌症的發病率居高不下,并且日趨嚴重。征服癌症,保障人民的身體健康,也是中國政府迫在眉睫的事情。不久前中國政府也宣布實施了自己的精準醫療計劃。很多民間資本也看到了這個領域的巨大潛力,大有來勢洶洶之勢。本人所在的TCGA資料中心,高峰期居然有超過90%的資料下載下傳來自中國。

TCGA的資料雖然有很高的參考及科研價值,但TCGA的資料在取樣上有明顯的種族偏向,白人樣本超過可80%(參見下圖),考慮到流行病學上的種族差異,以及地區和環境的差異,中國更需要适合自己國情的自己的癌症大資料(當然着并不意味着TCGA的資料完全沒有參考價值)。當然資料擷取的标準和品質自然是不容忽視的,高品質的資料才會帶來高品質的研究分析結果。華大基因在這方面已經踏出了堅實的一步,希望在不久的将來,中國也為人類最終戰勝癌症作出令世人矚目的貢獻。

癌症“登月計劃”需要大資料作後盾

- TCGA病人樣本的種族偏向- 白人病人占到80%(資料來源于TCGA臨床資料分析)

結語

完成征服癌症的“登月計劃”,其複雜度及困難程度并不比“登月計劃”低,更多的資料,更多的優質資料,将是完成這一計劃不可或缺的前提條件。

作者簡介

回複“志願者”了解如何加入大資料文摘

癌症“登月計劃”需要大資料作後盾