蛋白質結構和功能的形成,很大程度上取決于側鍊原子間的互相作用,是以,精準的蛋白質側鍊預測(PSCP)是解決蛋白質結構預測和蛋白質設計難題的關鍵一環。但此前蛋白質結構預測大多聚焦于主鍊結構,側鍊結構預測是一個未被完全解決的難題。
近日,分子之心許錦波團隊推出一種新的PSCP深度架構AttnPacker,在速度、記憶體效率和整體精度方面取得大幅提升,是目前已知的最優側鍊結構預測算法,也是全球首創的可同時進行側鍊預測和蛋白質序列設計的AI算法。相關論文發表在世界著名的學術刊物 《美國科學院院刊》(PNAS)上。
- 蛋白質側鍊預測:被忽略的破冰之刃
蛋白質由數個氨基酸折疊而成,其結構分為主鍊和側鍊。側鍊的差異性對蛋白質的結構與功能有巨大影響,尤其是生物活性。基于對側鍊結構的清晰認知,科學家們能夠更精準地測定蛋白質三維結構,解析蛋白質-蛋白質之間的互相作用,并進行理性蛋白設計。應用到藥物設計領域,科學家們便能更快、更準确地找到适合藥物與受體的結合點位,甚至根據需要優化或設計結合點位;在酶優化領域,科學家們可以通過對蛋白質序列的優化改造,讓多個側鍊參與催化反應,實作更高效、特異性更高的催化效果。
随着2016年許錦波教授提出第一個AI蛋白質折疊算法,以及Deepmind 開發AlphaFold在其基礎上發揚光大,大多數蛋白質主鍊的三維結構已經可以被預測得很好,但蛋白質側鍊結構預測未被完全突破。無論是AlphaFold2等熱門蛋白質結構預測算法,還是DLPacker、RosettaPacker等專注側鍊結構預測的算法,準确度或速度都不盡如人意,這也在一定程度上限制了蛋白質設計技術的發展。
傳統方法,如RosettaPacker,主要使用能量優化方法,先對側鍊原子的分布進行分組,再針對某個特定氨基酸來搜尋側鍊的分組,尋找能量最小的組合。這些方法主要差別于研究者對旋轉異構體文庫、能量函數和能量最小化程式的選擇,準确性受限于對搜尋啟發式方法和離散抽樣程式的使用。業界也有基于深度學習的側鍊預測方法,如DLPacker,它将PSCP表述為圖像到圖像的轉換問題,并采用了U-net模型結構。但預測精度和速度依然不夠理想。
側鍊結構預測與設計的局限成為制約蛋白質設計技術在創新藥研發、合成生物學等領域廣泛應用的因素之一。
許錦波教授從2003年開始研究蛋白質側鍊結構預測問題,是該領域研究時間最長的科學家之一。他早期使用圖論算法來縮短時間、提升精度,曾開發出第一個不需要完全暴力運算的側鍊結構預測算法,相關論文被國際計算分子生物學頂會RECOMB收錄,并在美國計算機協會(ACM)官方刊物《Journal of the ACM》發表。“這20年中,我們持續探索更精準、更快速預測蛋白質側鍊結構的方法。2016年,深度學習為蛋白質三維結構預測帶來突破後,我們開始嘗試用深度學習方法預測側鍊結構,”許錦波表示,希望AttnPacker等能夠進一步推進解決産業應用中的蛋白質優化、設計需求。
AttnPacker:快速、精準解決蛋白質的預測、優化和設計難題
AttnPacker是一種端到端的預測蛋白質側鍊坐标的深度學習方法。它聯合模拟了側鍊互相作用,直接預測的側鍊結構在實體上更可行,具有更少的原子碰撞和更理想的鍵長和角度。
具體而言,AttnPacker引入了一種利用PSCP的幾何和關系方面的深度圖轉換器架構。受AlphaFold2啟發,分子之心提出了位置感覺三角形更新,以使用基于圖形的架構來計算三角形注意力和乘法更新,進而優化成對特征。通過這種方法,AttnPacker的記憶體顯著減少并擁有更高容量的模型。此外,分子之心探索了幾種SE(3) 等變注意力機制,并提出了一種用于從3D點學習的等變變換器架構。
圖注:AttnPacker運作流程
在預測效果上,AttnPacker對天然和非天然主鍊結構都顯示出準确性和效率上的改進。同時保證了實體上的真實性,與理想鍵長和角度的偏差可以忽略不計,且實作了空間位阻最小。
分子之心在CASP13和 CASP14天然和非天然蛋白質主鍊資料集上對AttnPacker與目前最先進的方法——SCWRL4、FASPR、RosettaPacker和DLPacker進行對比測試。結果顯示,AttnPacker在CASP13和CASP14天然主鍊上顯著優于傳統蛋白質側鍊預測方法,平均重建RMSD比每個測試集上的次優方法低18%以上。AttnPacker還超越了深度學習方法DLPacker,平均RMSD降低了11%以上,同時也顯著提高了側鍊二面角精度。除了準确性,AttnPacker産生的原子碰撞明顯少于其他方法。
在CASP13和CASP14非天然主鍊上,AttnPacker也明顯優于其他方法,原子碰撞也明顯少于其他方法。
由于創新性地擯棄了離散的旋轉異構體庫以及計算上昂貴的構象搜尋和采樣步驟,直接結合主鍊3D幾何結構來并行計算所有側鍊坐标。AttnPacker與基于深度學習的方法DLPacker、基于實體的方法RosettaPacker相比,計算效率顯著提高,減少了100倍以上的推理時間。
Method | AttnPacker | DLPack | RosPack | FASPR | SCWRL4 |
Rel. Time | 1.0 | 124.4 | 151.7 | 0.5 | 14.7 |
圖注:AttnPacker運作流程
AttnPacker在蛋白質設計上的表現同樣優秀。分子之心訓練了一個AttnPacker變體用以協同設計,該變體可實作媲美當下最先進的方法的天然序列恢複率,同時還可生産高度精确的組裝。Rosetta模拟驗證顯示,AttnPacker設計的結構通常會産生更低的Rosetta能量。
除了效果和效率驚人之外,AttnPaker還有一個非常實用的價值——它非常易用。AttnPaker隻需要一個蛋白質的結構檔案即可運作。相比之下,OPUS-Rota4(28)需要來自DLPacker的原子環境的體素表示、來自trRosetta100的邏輯、二級結構和來自OPUS-CM輸出的限制檔案。另外,由于AttnPacker直接預測側鍊坐标,輸出是完全可微分的,這有利于下遊預測任務,例如細化或蛋白質-蛋白質互相作用。“預測效果好、效率高、易用,這些優勢有利于對于AttnPacker在研究和工業領域的廣泛使用。”許錦波教授表示。
目前,AttnPacker的預訓練模型、源代碼和推理腳本都已在Github上開源(https://github.com/MattMcPartlon/AttnPacker)。