天天看點

擊敗25個分子設計算法,佐治亞理工、多倫多大學等提出大語言模型

作者:ScienceAI
擊敗25個分子設計算法,佐治亞理工、多倫多大學等提出大語言模型

作者 | 佐治亞理工學院王浩瑞

編輯 | ScienceAI

分子發現作為優化問題,因其優化目标可能不可微分而帶來顯著的計算挑戰。進化算法(EAs)常用于優化分子發現中的黑箱目标,通過随機突變和交叉來周遊化學空間,但這會導緻大量昂貴的目标評估。

在這項工作中,佐治亞理工學院、多倫多大學和康奈爾大學研究者合作提出了分子語言增強進化優化(MOLLEO),通過将擁有化學知識的預訓練大語言模型(LLMs)整合到進化算法中,顯著改善了進化算法的分子優化能力。

該研究以《Efficient Evolutionary Search Over Chemical Space with Large Language Models》為題,于 6 月 23 日釋出在預印平台 arXix 上。

擊敗25個分子設計算法,佐治亞理工、多倫多大學等提出大語言模型

論文連結:https://arxiv.org/abs/2406.16976

分子發現的巨大計算挑戰

分子發現是一個複雜的疊代過程,涉及候選分子的設計、合成、評估和改進,在現實世界有廣泛的應用,包括藥物設計,材料設計,改善能源,疾病問題等。這個過程通常緩慢且費力,由于複雜的設計條件與評估分子屬性通常需要昂貴的評估(如濕法實驗、生物測定和計算模拟),即使是近似的計算評估也需要大量資源。

是以,開發高效的分子搜尋、預測和生成算法已成為化學領域的一個研究熱點,以加速發現過程。特别是,機器學習驅動的方法在快速識别和提出有前途的分子候選物方面發揮了重要作用。

由于問題的重要性,分子優化受到了極大的關注,包括已經發展測試的超過20多種分子設計算法(其中遺傳算法和強化學習等組合優化的方法領先于其他生成模型和連續優化算法),詳見最近Nature子刊的綜述文章。其中效果最佳之一的方法為進化算法(EAs),這些算法的特點是不需要梯度評估,是以非常适合用于分子發現中的黑箱目标優化。

然而,這些算法的一個主要缺點是它們随機生成候選結構而不利用任務特定的資訊,進而導緻需要大量的目标函數評估。因為評估屬性的昂貴,分子優化除了找到最佳期待屬性的分子結構,同時也要最小化目标函數評估次數(也等同于提高搜尋效率)。

最近,LLM在多項與化學相關的任務中表現出了一些基本能力,如預測分子屬性、檢索最優分子、自動化化學實驗和生成具有目标屬性的分子。由于LLM在包含廣泛任務的大規模文本語料庫上進行了訓練,它們展示了通用的語言了解能力和基本的化學知識,使其成為化學發現任務的有趣工具。

然而,許多基于LLM的方法依賴于上下文學習(in-context learning)和提示工程,這在設計具有嚴格數值目标的分子時可能會出現問題,因為LLM可能難以滿足精确的數值限制或優化特定的數值目标。此外,單純依賴LLM提示的方法可能會生成實體基礎較差的分子,或者生成無法解碼為化學結構的無效SMILES字元串。

分子語言增強進化優化

在本研究中,我們提出了分子語言增強進化優化(MOLLEO),該方法将LLM整合到EA中以提高生成候選物的品質并加速優化過程。MOLLEO利用LLM作為遺傳操作符,通過交叉或變異生成新的候選物。我們首次展示了如何将LLM整合到EA架構中以進行分子生成。

在該研究中,我們考慮了三個不同能力強度的語言模型:GPT-4、BioT5和MoleculeSTM。我們将每個LLM整合到不同的交叉和變異程式中,并通過消融研究證明了我們的設計選擇。

我們通過多個黑箱優化任務的實驗證明了MOLLEO的優越性能,包括單目标和多目标優化。對于所有任務,包括更具挑戰性的蛋白質-配體對接,MOLLEO均優于基線EA和其他25個強基線方法。此外,我們還展示了MOLLEO在ZINC 250K資料庫中的最佳JNK3抑制劑分子上進一步優化的能力。

我們的MOLLEO架構基于一種簡單的進化算法,Graph-GA算法,并通過在遺傳操作中整合化學感覺的LLM來增強其功能。

我們首先概述了問題陳述,強調在黑箱優化中最小化昂貴目标評估的必要性。MOLLEO利用LLM(如GPT-4、BioT5和MoleculeSTM)在目标描述的指導下生成新的候選分子。

具體而言,在交叉步驟中,我們不是随機結合兩個父分子,而是使用LLM生成最大化目标适應度函數的分子。在變異步驟中,操作符根據目标描述對目前種群中最适應的成員進行變異。然而,我們注意到LLM并不總是生成适應度高于輸入分子的候選物,是以我們建構了選擇壓力,基于結構相似性過濾編輯過的分子。

實驗結果

我們在18個任務上評估了MOLLEO。任務選自PMO和TDC基準測試和資料庫,可以分為以下幾類:

  1. 基于結構的優化:根據目标結構優化分子,包括基于目标分子公式的同分異構體生成(isomers_c9h10n2o2pf2cl)和兩個基于比對或避免骨架和亞結構基序的任務(deco_hop, scaffold_hop)。
  2. 基于名稱的優化:包括找到與已知藥物相似的化合物(mestranol_similarity, thiothixene_rediscovery)和三個多屬性優化任務(MPO),這些任務在重新發現藥物(如Perindopril, Ranolazine, Sitagliptin)的同時優化其他屬性,如疏水性(LogP)和滲透性(TPSA)。盡管這些任務主要涉及重新發現現有藥物而非設計新分子,但它們展示了LLM具有基本的化學優化能力。
  3. 屬性優化:包括簡單的屬性優化任務QED,衡量分子的藥物相似性。然後,我們關注PMO中的三個任務,衡量分子對以下蛋白質的活性:DRD2(多巴胺受體D2),GSK3β(糖原合酶激酶-3β),和JNK3(c-Jun氨基末端激酶-3)。此外,我們還包括了TDC中的三個蛋白質-配體對接任務(結構性藥物設計),這些任務比簡單的實體化學性質更接近現實世界的藥物設計。

為了評估我們的方法,我們按照PMO基準測試的方法,綜合考慮了目标值和計算預算,報告了前k個平均屬性值與目标函數調用次數的曲線下面積(AUC top-k)。

作為對比基準,我們使用了PMO基準測試中的頂級模型,包括基于強化學習的REINVENT、基礎進化算法Graph-GA和高斯過程貝葉斯優化GP BO。

擊敗25個分子設計算法,佐治亞理工、多倫多大學等提出大語言模型

圖示:單目标任務的Top-10 AUC。(來源:論文)

我們在PMO的12項任務中進行了單目标優化實驗,結果上表所示,我們報告了每項任務的AUC top-10 得分以及各模型的總體排名。結果表明,使用任意一個大型語言模型(LLM)作為遺傳操作符,都能提高性能,超過預設的Graph-GA和其他所有基線模型。

GPT-4在12項任務中有9項表現優于所有模型,展示了其作為一個通用大語言模型在分子生成中的有效性與前景。BioT5在所有測試模型中取得了第二好的結果,總分接近GPT-4,說明在領域知識上訓練與微調的小模型在MOLLEO中也有很好的應用前景。

MOLSTM是基于CLIP模型在分子的自然語言描述和分子的化學式上微調的小模型,我們在進化算法中在相同的自然語言描述上使用梯度下降算法來産生不同的新分子,它的表現也優于其他的基準方法。

擊敗25個分子設計算法,佐治亞理工、多倫多大學等提出大語言模型

圖示:JNK3抑制随疊代次數增加而出現的群體适應度。(來源:論文)

為了驗證将LLM整合到EA架構中的有效性,我們展示了初始随機分子池在JNK3任務上的得分分布。随後,我們對池中的所有分子進行了一輪編輯,并繪制了編輯後分子的JNK3得分分布。

結果表明,經過LLM編輯後的分布都略微向更高的得分方向偏移,這表明LLM确實提供了有用的修改。然而,總體目标得分仍然較低,是以單步編輯并不足夠,在這裡使用進化算法進行疊代優化是必要的。

擊敗25個分子設計算法,佐治亞理工、多倫多大學等提出大語言模型

圖示:與DRD3、EGFR或腺苷A2A受體蛋白對接時前10個分子的平均對接得分。(來源:論文)

除了PMO中的12個單目标優化任務外,我們還在更具挑戰性的蛋白質-配體對接任務中測試了MOLLEO,這些任務比單目标任務更接近于現實世界中的分子生成場景。上圖是MOLLEO和Graph-GA的前十個最好分子的平均對接評分與目标函數調用次數的關系圖。

結果表明,在所有三種蛋白質中,我們的方法生成的分子的對接評分幾乎都優于基線模型,并且收斂速度更快。在我們使用的三種語言模型中,BioT5表現最佳。在現實中,更好的對接評分和更快的收斂速度可以減少篩選分子所需的生物檢測次數,使這一過程在成本和時間上都更有效。

擊敗25個分子設計算法,佐治亞理工、多倫多大學等提出大語言模型

圖示:多目标任務的求和和超體積分數。(來源:論文)

擊敗25個分子設計算法,佐治亞理工、多倫多大學等提出大語言模型

圖示:Graph-GA和MOLLEO在多目标任務上的帕累托最優可視化。(來源:論文)

對于多目标優化,我們考慮了兩個名額:所有優化目标的得分之和的AUC top-10和帕累托最優集的超體積。我們展示了多目标優化在三個任務中的結果。任務1和任務2受到藥物發現目标的啟發,旨在同時優化三個目标:最大化分子的QED、最小化其合成可及性(SA)評分(意味着更容易合成)以及最大化其對JNK3(任務1)或GSK3β(任務2)的結合評分。任務3更加具有挑戰性,因為它需要同時優化五個目标:最大化QED和JNK3結合評分,以及最小化GSK3β結合評分、DRD2結合評分和SA評分。

我們發現,在所有三個任務中,MOLLEO(GPT-4)在超體積和總和方面都始終優于基線的Graph-GA。在圖中,我們可視化了任務1和任務2中我們的方法和Graph-GA的帕累托最優集(在目标空間中)。當在引入多個目标時,開源的語言模型的性能下降。我們推測這種性能下降可能源于它們無法捕捉大量資訊密集的上下文。

擊敗25個分子設計算法,佐治亞理工、多倫多大學等提出大語言模型

圖示:使用ZINC 250K中的最佳分子初始化MOLLEO。(來源:論文)

進化算法的最終目标是改進初始分子池的性質并發現新分子,為了探索MOLLEO探索新分子的能力,我們用ZINC 250K中的最佳分子初始化分子池,然後使用MOLLEO和Graph-GA進行優化。在JNK3任務上的實驗結果顯示,我們的算法始終能優于基線模型Graph-GA,并且能夠改進現有資料集中找到的最佳分子。

此外,我們還注意到BioT5的訓練集是ZINC20資料庫(包含14億化合物),MoleculeSTM的訓練集是PubChem資料庫(約25萬分子)。我們檢查了每個模型在JNK3任務中生成的最終分子是否出現在相應的資料集中。結果發現,生成的分子與資料集中并沒有重疊。這表明模型能夠生成新的、未在訓練集中出現的分子。

可應用于藥物發現、材料、生物分子設計

分子發現和設計是一個具有衆多實際應用的豐富領域,許多應用超出了目前研究的範圍,但與我們提出的架構仍然相關。MOLLEO将LLM與EA算法結合,通過純文字的結合方式提供了靈活的算法架構,在未來MOLLEO可以應用于藥物發現、昂貴的計算機模拟以及材料或大型生物分子的設計等場景。

未來工作我們将進一步關注如何提高生成分子的品質,包括其目标值和發現速度。随着LLM的不斷進步,我們預計MOLLEO架構的性能也将繼續提升,使之成為生成化學應用中的一個有前景的工具。

繼續閱讀