編輯 | KX
生成式深度學習正在重塑藥物設計。化學語言模型 (CLM) 以分子串的形式生成分子,對這一過程尤為重要。
近日,來自荷蘭埃因霍芬理工大學(Eindhoven University of Technology)的研究人員将一種最新的深度學習架構(S4)引入到從頭藥物設計中。
結構化狀态空間序列(Structured State Space Sequence,S4)模型在學習序列的全局屬性方面表現卓越,那麼 S4 能否推進從頭設計的化學語言模組化?
為了給出答案,研究人員系統地在一系列藥物發現任務上對 S4 與最先進的 CLM 進行了基準測試,例如生物活性化合物的鑒定以及類藥物分子和天然産物的設計。S4 在學習複雜分子特性的同時,還具有探索多種支架的優越能力。
最後,目前瞻性地應用于激酶抑制時,S4 設計的 10 個分子中有 8 個被分子動力學模拟預測為高活性。
總而言之,S4 在化學語言模組化中極具潛力,尤其是在捕捉生物活性和複雜分子性質方面。這是首次将狀态空間模型應用于分子任務。
相關研究以「Chemical language modeling with structured state space sequence models」為題,于 7 月 22 日釋出在《Nature Communications》上。
論文連結:https://www.nature.com/articles/s41467-024-50469-9
從頭開始設計具有所需特性的分子是一個「大海撈針」的問題。化學宇宙包含多達 10^60 個小分子,在相當大的程度上仍處于未知狀态。
生成式深度學習無需手工設計規則即可生産所需的分子,進而以省時、低成本的方式探索化學宇宙。特别是,CLM 已經産生了經過實驗驗證的生物活性設計,并作為強大的分子發生器脫穎而出。
CLM 采用為序列處理開發的算法來學習「化學語言」,即如何生成化學有效(文法)并具有所需特性(語義)的分子。這是通過将分子結構表示為字元串符号來實作的,例如簡化分子輸入行輸入系統 (SMILES) 等。然後,這些分子字元串用于模型訓練,并随後以文本形式生成分子。
圖示:化學語言模組化的結構化狀态空間序列(S4)模型的關鍵概念。(來源:論文)
幾種用于從頭設計的 CLM 架構,其中最受歡迎的是長短期記憶 (LSTM) 模型和 Transformer 架構。
結構化狀态空間序列模型 (S4) 是狀态空間架構家族中快速發展的新成員,其在深度學習社群中越來越受到關注。S4 在音頻、圖像和文本生成中表現出色,并且具有「雙重性質」:它們 (1) 在整個輸入序列上進行訓練以學習複雜的全局屬性,(2) 一次生成一個字元串元素,進而結合了 Transformer 和 LSTM 各自的一些優勢。受這種「兩全其美」的啟發,研究人員在此提出以下問題:S4 能否推動化學語言模組化的最新發展?
在該研究中,研究人員将 S4 應用于 SMILES 字元串上的化學語言模組化,并針對與藥物設計相關的各種任務對其進行基準測試,從學習生物活性到化學空間探索和天然産物設計。
類藥物分子和天然産物設計
研究人員在一系列藥物發現任務上對 S4 與最先進的 CLM 進行了基準測試,例如類藥物分子和天然産物的設計。
首先,對 S4 進行了分析,以了解其設計從 ChEMBL 資料庫中提取的類藥物小分子(SMILES 長度低于 100 個 tokens)的能力。
所有 CLM 均生成了超過 91% 的有效分子、91% 的獨特分子和 81% 的新分子。S4 通過生成比基準更多的新分子(大約 4000 到 12,000 多個)來設計最有效、最獨特和最新穎的分子,并顯示出良好的學習 SMILES 字元串「化學文法」的能力。與現有的從頭設計方法相比,S4 的潛力在 MOSES 基準上得到了進一步證明,其中 S4 始終位清單現最好的深度學習方法之列。
S4 還針對比類藥物分子更具挑戰性的分子實體進行了進一步測試。為此,研究人員評估了其設計天然産物 (NPs) 的能力。與合成小分子相比,NPs 往往具有更複雜的分子結構和環系統,以及更大比例的 sp3 雜化碳原子和手性中心。這些特征對應于平均更長的 SMILES 序列,具有更多的長程依賴性,并使天然産物成為 CLM 的具有挑戰性的測試用例。
所有 CLM 都可以設計天然産物,但與類藥物分子相比,其性能較低。S4 設計的有效分子數量最多,比 S4 多出約 6000 到 12,000 個分子(好 7-13%),而 LSTM 的新穎性最高,比 S4 多出約 2000 個分子(2%)。
最後,還分析了增加 SMILES 長度時 CLM 架構的訓練和生成速度,以測試它們在設計更大分子(如天然産物)時的實際适用性。分析強調,由于其雙重性,S4 在訓練過程中與 GPT 一樣快(兩者都比 LSTM 快約 1.3 倍),并且在生成方面最快。這進一步主張引入 S4 作為分子設計的有效方法,與 GPT 和 LSTM 相比,「兼具兩全其美」。
前瞻性從頭設計
研究人員使用 S4 進行了一項前瞻性計算機模拟研究,重點是設計絲裂原活化蛋白激酶 1 (MAPK1) 的抑制劑,這是惡性良性腫瘤治療的相關靶點。然後通過分子動力學 (MD) 評估設計的假定生物活性。
圖示:使用 S4 進行假定 MAPK1 抑制劑的前瞻性從頭設計。(來源:論文)
S4 模型經過微調,然後使用微調模型的最後五個 epochs 生成 256K 個分子。通過對數似然得分和與訓練集的支架相似性對設計進行排序和篩選,10 個得分最高的分子使用 MD 模拟進行進一步表征。
通過 MD 預測,10 個設計中有 8 個對預期目标具有生物活性,并且預測親和力與最接近的微調分子相當或更高,這些結果進一步證明了 S4 用于從頭藥物設計的潛力。
分子 S4 的機會
總之,本研究率先将狀态空間模型引入化學語言模組化,重點關注結構化狀态空間 (S4)。S4 獨特的雙重性質,包括訓練中的卷積和循環生成,使其特别适合從 SMILES 字元串開始的從頭設計。
研究人員在各種藥物發現任務上與 GPT 和 LSTM 進行了系統比較,揭示了 S4 的優勢:雖然循環生成 (LSTM 和 S4) 在學習化學文法和探索各種支架方面更勝一籌,但對整個 SMILES 序列進行整體學習 (GPT 和 S4) 在捕捉某些複雜特性(如生物活性)方面表現出色。
S4 具有雙重性質,「兼具兩全其美」:它在設計有效且多樣化的分子方面與 LSTM 表現相當或更好,并且在捕捉複雜分子性質方面系統性地優于基準,同時保持計算效率。
S4 在 MAPK1 抑制中的應用已認證 MD 模拟得到驗證,這進一步展示了其設計強效生物活性分子的潛力。未來,研究人員将前瞻性地将 S4 與濕實驗室實驗相結合,以增強其在該領域的影響。
S4 在分子科學領域還有許多方面有待探索,例如其在更長序列(例如大環肽和蛋白質序列)和其他分子任務(例如有機反應規劃和基于結構的藥物設計 中的潛力。
未來,S4 在分子發現中的應用将不斷增加,并有可能取代 LSTM 和 GPT 等廣泛應用的化學語言模型。