天天看點

Nat Compu Sci + NAR丨劉琦教授團隊發展基于子任務分解的單細胞擾動預測的AI新範式和開發單細胞擾動組學資料資源

Nat Compu Sci + NAR丨劉琦教授團隊發展基于子任務分解的單細胞擾動預測的AI新範式和開發單細胞擾動組學資料資源

引言

解析基因功能對于了解複雜生物學過程、揭示疾病的發生發展機制以及新藥研發等均具有重要的意義。單細胞遺傳擾動測序正成為解析基因功能與複雜基因調控關系的新技術手段。利用基因擾動組學測序技術(例如Perturb-seq、CROP-seq等),我們能夠在單細胞層面檢測特定基因擾動後細胞轉錄譜層面的變化,進而關聯特定擾動和表型,進一步開發有效的幹預和治療手段。然而,潛在的基因擾動組合空間非常巨大,通過暴力搜尋等實驗測序手段探索如此龐大的組合空間并不可行。除此之外,單細胞擾動測序技術尚處于發展階段,測序成本昂貴,進一步限制了對于多細胞系擾動資料的擷取。是以,領域内亟需開發能夠适用多種場景(單基因擾動、多基因擾動以及跨細胞系擾動)的單細胞擾動預測模型,以推動基因功能和複雜調控關系的解析和相關幹預研究。

目前主流的單細胞擾動預測和分析方法主要分為三類:第一類方法是以CellOracle和SCENIC+為代表的基于基因調控網絡建構的擾動預測模組化,然而該類方法的準确性通常受限于調控網絡的有效建構;第二類方法是以CPA和GEARS為代表的擾動表征方法,該類方法展現了其在單基因和多基因擾動上的有效性,但是在進行多細胞系的泛化時仍面臨困難,限制了其應用範圍;第三類方法是以scGPT、Geneformer以及scBERT為代表的單細胞大模型,這類方法能夠産生可泛化至多細胞系的廣義基因表征,進而在下遊擾動預測任務上進行應用,但仍然缺乏對其擾動預測性能的系統性評估,已有研究表明,這些預測相較于簡單線性拟合方法并沒有顯著提升。綜上,領域内亟待對現有的單細胞擾動預測方法進行系統評估,并進一步發展普适、有效、高泛化性的單細胞擾動預測政策。

近日,同濟大學生命科學與技術學院生物資訊學系、同濟大學-上海自主智能無人系統科學中心劉琦教授課題組在Nature Computational Science上發表了題為:Toward subtask-decomposition-based learning and benchmarking for predicting genetic perturbation outcomes and beyond的研究論文。該論文提出了一種基于子任務分解的靈活、普适且高效的單細胞擾動預測AI架構——STAMP(SubTAsk decompositionModeling for geneticPerturbation prediction),并建立了基于子任務分解的擾動預測的系統評估體系,旨在提升和評估模型在單基因擾動、多基因擾動以及跨細胞系擾動場景下的泛化能力,進一步推動單細胞擾動組學的智能解析和相關應用。

Nat Compu Sci + NAR丨劉琦教授團隊發展基于子任務分解的單細胞擾動預測的AI新範式和開發單細胞擾動組學資料資源

單細胞擾動資料通常存在高次元、高噪聲、強稀疏性、強異質性的資料特點,這使得直接對其進行有效模組化具有挑戰性。通過深入探究擾動預測問題的本質,該問題可以被分解為三個層級遞進的子問題:(1)鑒定受擾動後的差異基因;(2)鑒定這些差異基因受擾動後的基因表達變化方向;(3)鑒定這些基因受擾動後的表達譜變化數值。面向該三個子問題,STAMP創新性地提出了一種分而治之(Divide-and-Conquer)政策,将單細胞擾動預測任務分解為該三個層級遞進的子任務,進而形成一種普适、有效的計算模型,同時建立了一種基于子任務分解的擾動預測的系統評估體系。具體來說,在第一個子任務中,STAMP通過學習基因的表征空間到擾動後差異基因空間的映射來預測擾動後的差異基因。由于擾動後變化的基因具有非常強的稀疏性,該任務可以被認為是擾動特異性的一種隐空間嵌入,進而提升模型在後續子任務中的信噪比。在第二個子任務中,STAMP通過學習基因表征空間到擾動後基因表達變化方向空間的映射來預測擾動後基因的變化方向,以刻畫基因受到擾動後的調控軌迹。第二個子任務也可以作為第三個子任務的進一步限制,使得第三個子任務的預測難度進一步降低。第三個子任務則在第二個子任務的基礎上,進一步定量預測受擾動後差異基因表達變化的具體數值。在實作過程中,STAMP以一種多任務學習 (Multi-task learning) 的形式來對模型進行優化。同時,基于該子任務分解政策,STAMP可以作為一個插件 (Plug-in),以相容任一來自單細胞大模型的基因表征或者是可學習的動态基因表征來進行基因擾動預測,進而具有高度的靈活性和普适性。

Nat Compu Sci + NAR丨劉琦教授團隊發展基于子任務分解的單細胞擾動預測的AI新範式和開發單細胞擾動組學資料資源

圖1:STAMP架構圖(Credit: Nature Computational Science)

該工作中,研究團隊首先在單基因擾動、多基因擾動以及跨細胞系擾動三種測試場景下,從三個子任務的角度對CPA,GEARS,scGPT,Geneformer、 scBERT以及STAMP進行了全面系統的評估。其中scGPT+STAMP (利用scGPT的基因表征作為STAMP的輸入) 在此全面的評估體系下,展現出了卓越的性能。研究團隊随後将scGPT+STAMP應用于兩種擾動解析場景:(1)新細胞系下的關鍵調控基因和通路的識别:該任務利用新細胞系下的少量單細胞擾動資料對STAMP進行小樣本學習。結果顯示,相較于其它方法,利用子任務分解的政策能夠顯著提升在小樣本場景下的關鍵調控基因識别的準确性以及下遊通路識别的一緻性;(2)多種基因互作(GI,Gene Interaction)的識别:該任務系統探究了不同模型對于包括加性(Additive)、協同(Synergy)、抑制(Suppression)、新形态(Neomorphic)、備援(Redundancy)、上位(Epistasis)在内的6種GI的識别能力。由于GI的判定準則對于模型GI鑒定能力的評估具有重要的影響,研究團隊基于決策樹開發了更加有效準确的GI判定準則,并利用該準則系統評估了不同模型在GI識别上的性能。結果顯示,STAMP在GI有效識别上依然具有優勢。

綜上所述,STAMP是一種基于子任務分解進行單細胞擾動預測的創新AI範式,相較于大模型預訓練-微調以及動态學習基因表征等政策,STAMP以一種插件的形式可以适配任意基因表征,具有高效、靈活、普适等優勢,同時也為該領域的系統評估提供了可借鑒的新思路。同時,劉琦教授團隊近期開發了領域内首個全面的單細胞擾動組學(化學擾動+遺傳擾動)資料平台PerturBase(http://www.perturbase.cn/,Nucleic Acids Research 2024),這些智能平台和資料資源将有望成為解析擾動狀态下基因-表型關系的新利器,将進一步推動資料驅動的精準醫學研究。

Nat Compu Sci + NAR丨劉琦教授團隊發展基于子任務分解的單細胞擾動預測的AI新範式和開發單細胞擾動組學資料資源

參考文獻

https://doi.org/10.1038/s43588-024-00698-1;

https://doi.org/10.1093/nar/gkae858

責編|探索君

排版|探索君

文章來源|“BioArt”

End

往期精選

圍觀

一文讀透細胞死亡(Cell Death) | 24年Cell重磅綜述(長文收藏版)

繼續閱讀