天天看點

登Nature子刊,拓撲Transformer模型多尺度蛋白質-配體互作預測

作者:ScienceAI
登Nature子刊,拓撲Transformer模型多尺度蛋白質-配體互作預測

編輯 | 蘿蔔皮

一項新的人工智能應用将幫助研究人員提高藥物研發能力。

該項目名為 TopoFormer,是由美國密歇根州立大學(Michigan State University)數學系 Guowei Wei 教授上司的跨學科團隊開發的。

TopoFormer 将分子的三維資訊轉化為典型的基于人工智能的藥物互相作用模型可以使用的資料,擴充了這些模型預測藥物有效性的能力。

「有了人工智能,你可以讓藥物研發更快、更高效、更便宜。」Wei 說,他同時在生物化學和分子生物學系以及電氣和計算機工程系任職。

Wei 教授解釋道,在美國,開發一種藥物大約需要十年時間,耗資約 20 億美元。藥物試驗大約占了一半的時間,而另一半時間則用于發現新的治療候選藥物進行測試。

TopoFormer 有潛力縮短開發時間。這樣一來,就可以降低藥物開發成本,進而降低下遊消費者的藥品價格。

該研究以「Multiscale topology-enabled structure-to-sequence transformer for protein–ligand interaction predictions」為題,于 2024 年 6 月 24 日釋出在《Nature Machine Intelligence》。

登Nature子刊,拓撲Transformer模型多尺度蛋白質-配體互作預測

盡管研究人員可以使用計算機模型來輔助藥物研發,但由于問題變量衆多,是以存在衆多局限性。

「我們的身體中有超過 20,000 種蛋白質。」Wei 說,「當一種疾病出現時,其中一些或其中一種就會成為目标。」

那麼,第一步就是了解疾病會影響哪種或哪些蛋白質。這些蛋白質也成為研究人員的目标,他們希望找到能夠預防、減輕或抵消疾病影響的分子。

「當我有一個目标時,我會嘗試針對該特定目标尋找大量潛在藥物,」Wei 說。

一旦科學家知道了藥物應該針對哪些蛋白質,他們就可以将蛋白質和潛在藥物的分子序列輸入傳統的計算機模型中。這些模型可以預測藥物和靶标将如何互相作用,指導開發和在臨床試驗中測試哪些藥物。

雖然這些模型可以僅根據藥物和蛋白質的化學組成來預測一些互相作用,但它們也忽略了來自分子形狀和三維或 3D 結構的重要互相作用。

20 世紀 60 年代化學家發現的布洛芬就是一個例子。有兩種不同的布洛芬分子,它們具有相同的化學序列,但 3D 結構略有不同。隻有一種排列方式可以與疼痛相關蛋白質結合并消除頭痛。

Guowei Wei 說:「目前的深度學習模型在預測藥物或蛋白質如何協同作用時無法解釋它們的形狀。」

Transformer 架構引入了一種新技術,利用注意力機制進行跨域順序資料分析。受此啟發,Wei 團隊開發了一個拓撲 Transformer 模型 TopoFormer,将 Persistent Topological Hyperdigraph Laplacian(PTHL)與 Transformer 架構內建在一起。

與處理蛋白質和配體序列的傳統 Transformer 不同,TopoFormer 輸入 3D 蛋白質-配體複合物。它通過 PTHL 将這些複合物轉換為拓撲不變量和同倫形狀的序列,進而在多個尺度上捕捉它們的實體、化學和生物互相作用。

在多樣化資料集上進行預訓練,TopoFormer 能夠了解複雜的分子互相作用,包括分子序列中不明顯的立體化學效應。在特定資料集上進行微調,可以捕獲複合物内的詳細互相作用及其相對于整個資料集的特征,進而增強下遊深度學習應用。

登Nature子刊,拓撲Transformer模型多尺度蛋白質-配體互作預測

圖示:TopoFormer 整體模型的示意圖。(來源:論文)

為了集中分析,研究人員使用 20 Å 或更精确的 12 Å 截止值來識别設定距離内的重配體和附近的蛋白質原子。然後,TopoFormer 通過拓撲序列嵌入子產品将 3D 分子結構轉換為拓撲序列,利用 PTHL 進行多尺度分析。此過程将各種實體、化學和生物互相作用嵌入載體序列中。

TopoFormer 使用未标記的蛋白質-配體複合物進行自監督預訓練,使用 Transformer 編碼器-解碼器重建拓撲序列。此階段通過比較輸出和輸入嵌入來測量準确性,為模型做好準備,以便在沒有标記資料的情況下了解蛋白質-配體動力學。

預訓練後,TopoFormer 進入帶标記複合體的監督微調階段,其中初始嵌入向量成為評分、排名、對接和篩選等下遊任務的關鍵特征。每個任務在預測器子產品中都有一個專用的頭。

為了確定準确性并減少偏差,TopoFormer 內建了多個使用不同種子初始化的拓撲變換深度學習模型,并用基于序列的模型對其進行了補充。

最終輸出是這些不同預測的共識,這使得 TopoFormer 成為一個分析蛋白質-配體互相作用的綜合模型,既利用了拓撲洞察力,又利用了深度學習。

登Nature子刊,拓撲Transformer模型多尺度蛋白質-配體互作預測

圖示:TopoFormer 在評分和排名任務中的表現。(來源:論文)

這種方法允許使用各種次元的有向超邊來模組化簡單的成對連接配接以外的複雜互相作用。此外,這些邊的方向結合了實體和化學特性,例如電負性和電離能,進而提供比傳統方法更細緻入微的表示。研究人員通過用有向超邊區分兩個 B7C2H9 異構體證明了這種能力,展示了該方法有效區分元素構型的能力。

在研究蛋白質-配體複合物時,研究人員采用拓撲超有向圖作為初始表示,并通過 PTHL 理論進一步增強,以分析其幾何和拓撲特征。

從分子結構等實體系統中汲取靈感,其中零維霍奇拉普拉斯算子與定義明确的量子系統的哈密頓量的動能算子有聯系,研究人員将離散類比擴充到拓撲超有向圖。拉普拉斯矩陣的這些特征值提供了對拓撲對象屬性的洞察,類似于實體系統的能量譜。

與傳統的持久同源性相比,PTHL 方法通過分析除單純複形之外的更廣泛的結構,标志着一項重大進步。它通過持久拉普拉斯算子的非諧波譜捕獲基本同源性資訊和幾何見解,包括貝蒂數和同倫形狀演化。

分析結果顯示,與傳統同源性相比,它提供了更全面的表征。拉普拉斯算子的零特征值的多重性(對應于貝蒂數)證明了該方法包含條形碼資訊,為了解蛋白質-配體複合物提供了一個強大的架構。

登Nature子刊,拓撲Transformer模型多尺度蛋白質-配體互作預測

圖示:TopoFormer 在對接和篩選任務中的表現。(來源:論文)

為了捕捉蛋白質-配體複合物中複雜的原子互相作用,包括共價力、離子力和範德華力,研究人員利用 PTHL 進行多尺度分析。該方法允許通過基于過濾參數演化拓撲序列,來檢查跨尺度互相作用,進而幫助 Transformer 模型識别每個尺度對結合親和力等屬性的權重。

元素互相作用,包括氫鍵、範德華力和 π 堆積,是蛋白質-配體複合物穩定性和特異性的基礎。為了在元素層面分析這些互相作用,研究人員在拓撲序列嵌入中引入了元素特定分析。

該方法根據蛋白質和配體中的常見重元素建構子超圖,生成元素特定的拉普拉斯矩陣來編碼複合物内的互相作用。該技術提取詳細的實體和化學特征,增強了 Transformer 模型對蛋白質-配體互相作用中複雜動力學的了解。

結語

總而言之,TopoFormer 經過訓練可以讀取一種形式的資訊并将其轉換為另一種形式。在這種情況下,它會根據蛋白質和藥物的形狀擷取有關它們如何互相作用的三維資訊,并将其重建為目前模型可以了解的一維資訊。

新模型經過數萬種蛋白質-藥物互相作用的訓練,其中兩種分子之間的每種互相作用都被記錄為一段代碼或一個「單詞」。這些單詞串在一起形成對藥物-蛋白質複合物的描述,進而建立其形狀的記錄。

「這樣,你就有了許多單詞像句子一樣串聯起來。」Wei 說。

然後,其他預測新藥互相作用的模型可以讀取這些句子,并為它們提供更多背景資訊。如果一種新藥是一本書,TopoFormer 可以将一個粗略的故事構思變成一個完整的情節,随時可以寫作。

論文連結:https://www.nature.com/articles/s42256-024-00855-1

相關報道:https://phys.org/news/2024-06-drug-discovery-ai-3d-typical.html

繼續閱讀