天天看點

Nat. Mach. Intell. | 利用條件循環神經網絡生成特定性質分子

Nat. Mach. Intell. | 利用條件循環神經網絡生成特定性質分子

今天給大家介紹瑞士知名藥企阿斯利康和伯爾尼大學的 Esben Jannik Bjerrum團隊在Nature Machine Intelligence上的一篇論文。該研究提出基于分子SMILES表示的條件循環神經網絡,輸入目标性質,模型可直接生成具有對應性質的分子。

1

背景

機器學習對生物和化學領域有着深遠影響,其可被用于生物活性預測,分子性質預測,醫療診斷等。然而,反向分子設計,即生成具有特定結構和實體化學性質的分子,對于機器學習仍是一項挑戰。

生成式機器學習模型不需要明确的設計規則就可以在目标空間中進行采樣,這類模型學習資料的分布,并生成符合這種分布的新資料。近些年來,生成式深度學習模型在新藥設計領域迅速發展,被用于生成具有特定性質的分子。由于分子線性輸入規範(SMILES)可将分子以字元串形式表達,有一部分自回歸式生成模型利用循環神經網絡對SMILES表達式進行序列模組化和預訓練,以生成滿足基本物化性質的分子,随後結合遷移學習或強化學習技術将生成分子引導至具有目标屬性的化學空間。此外,有研究人員将目标分子的化學性質和圖結構進行編碼,作為條件變分自編碼器和條件對抗生成網絡的輸入條件,生成對應分子。Esben Jannik Bjerrum團隊基于分子的SMILES表達和循環神經網絡,提出了條件式生成模型。輸入目标性質,模型将直接生成具有對應性質的分子。實驗表明輸入條件可操縱循環神經網絡生成目标化學空間中的分子,例如對特定蛋白質結構有生物活性的分子。

2

方法

2.1 資料集

作者使用兩個開源分子資料庫:ChEMBL和ExCAPE-DB。其中ChEMBL被用于訓練條件循環神經網絡,而ExCAPE-DB中靶向多巴胺受體(DRD2)的分子被用于訓練基于支援向量機的QSAR分類模型進而檢驗生成模型能否通過輸入條件來生成對DRD2有生物活性的分子。

2.2 SMILES資料增強和向量化

使用同一實體的多個表示形式(資料增強)已被提出作為一種政策,以在少量資料的情況下訓練并獲得可泛化的模型。作者利用SMILES字元串的非單義性實作資料增強,即利用多個有效的SMILES字元串表示同一個分子,該方法通過從一個分子中不同的非氫原子為起始字元建構不同的SMILES字元串。在每個SMILES字元串的第一個字元前和最後一個字元後分别插入起始符^和終止符$後,将每個SMILES字元串進行one-hot編碼。在one-hot編碼格式中,每種字元都有一個固定長度(長度大小為SMILES字元串的token表大小)的唯一向量表示,每個SMILES字元串将被轉化為一個二維向量,一個次元對應着token表長度,另一個次元對應着該SMILES字元串的長度。

2.3 條件循環神經網絡

作者建構了基于不同分子描述符的條件循環神經網絡:

(1)基于實體化學分子描述符——PhysChem Based(PCB)模型,如圖1(A)所示。該模型将脂水配置設定系數 log P、拓撲極性表面積 TPSA、分子重量 MW、氫鍵供體數 HBD、氫鍵受體數 HBA、類藥性評分 QED 和 DRD2 QSAR分類器的評分為輸入條件。

(2)基于分子指紋——FingerPrint Based(FPB)模型,如圖1(B)所示。該模型以分子的2048位Morgan FingerPrint編碼為輸入條件。

Nat. Mach. Intell. | 利用條件循環神經網絡生成特定性質分子

圖1

基于不同條件的條件循環神經網絡 (A)基于實體化學性質的模型(PCB)接受由RDKIT Python庫計算的六個分子描述符與由QSAR預測的具有生物活性的機率。(B)基于指紋的模型(FPB)接受由RDKIT計算的2048bit Morgan指紋向量。在訓練過程中,二者都使用Teacher’s Forcing方法訓練,且使用資料增強後的ChEMBL SMILES字元串為訓練集。(C)在推理過程,輸入條件并以起始符^為起點,反複生成字元直至終止符$被采樣。

輸入條件向量後,首先使用具有六層全連接配接層,每層256個神經元,以ReLU為激活函數的神經網絡将條件向量轉換為循環神經網絡中每層網絡的hidden state或cell state。随後由三層各自含有256個LSTM神經元組成的單向循環神經網絡進行訓練和推理。最後一層循環神經網絡的輸出向量經過一個含有35個神經元的單層神經網絡,經過SoftMax激活函數後,得到下一個字元的機率分布。訓練時,兩種cRNN模型使用Teacher’s Forcing方法進行訓練, 即從訓練集中選擇分子,計算其描述符或指紋作為輸入條件;在cRNN訓練過程中,将該分子SMILES字元串順序輸入,以最小化下一個字元的預測機率分布和真實值的交叉熵為目标。生成分子時,以目标描述符或指紋作為輸入條件;輸入起始符^,計算下一個字元的機率分布并采樣,将被采樣的字元作為下一個輸入字元;如此反複,直至采樣到終止符$。

3

實驗

3.1 基準模型

實驗中,作者旨在生成對DRD2具有生物活性的分子,采用兩個基準模型進行對比:(1)Prior Model:在ChEMBL上訓練的循環神經網絡(2)TL Model:采用遷移學習政策,在ChEMBL上進行預訓練,随後在對DRD2具有生物活性的分子資料集上訓練的循環神經網絡。兩個基準模型與條件循環神經網絡具有相同的網絡結構,且将網絡的hidden state或cell state置零。

3.2 資料集的負對數似然分布

Nat. Mach. Intell. | 利用條件循環神經網絡生成特定性質分子

圖2  由Prior model,TL Model,FPB Model和PCB Model采樣出每個資料集中所有分子SMILES的負對數似然分布。

作者通過計算負對數似然(NLL)來估計模型生成資料集中某一分子的機率,該值越小說明生成該分子的機率越大。圖2表明PFB和PCB模型在四個資料集上分别有最低和第二低的負對數似然分布,這說明在二者與基準模型相比,有更大可能生成資料集中的分子。同時也說明,PFB模型所用的2048-bit Morgan Finger相比PCB模型的7-bit 實體化學性質描述符,輸入條件含有更多分子資訊,這促使cRNN有更大可能性生成對應結構的分子。

3.3 生成DRD2活性分子

Nat. Mach. Intell. | 利用條件循環神經網絡生成特定性質分子

圖3 從DRD2測試集中随機挑選兩個分子作為conditional seed(中心),以其結構指紋為條件,利用FPB模型生成分子(虛線内);以其實體化學描述符為條件,利用PCB模型生成分子(虛線外)。

Nat. Mach. Intell. | 利用條件循環神經網絡生成特定性質分子

圖4 (A)由FPB和PCB模型生成的分子與conditional seed分子的骨架相似性分布(B)由FPB和PCB模型生成的分子對DRD2的生物活性分布。

圖3展示了從DRD2測試集中随機挑選活性分子作為conditional seed,利用FPB和PCB模型生成的分子。由結果可見,因為Morgan Finger包含了大量的分子結構資訊,利用FPB生成的分子與conditional seed在結構上極其相似,大多擁有相同的分子骨架。另一方面,PCB模型的輸入條件僅僅為實體化學性質,生成的分子在結構上更具多樣性。圖4說明PCB模型與FPB模型相比,生成的分子與seed具有較小的骨架相似性;然而,兩個模型生成的分子對DRD2的生物活性有相似的分布。

3.4 PCB模型生成特定性質分子

Nat. Mach. Intell. | 利用條件循環神經網絡生成特定性質分子

圖5 10個conditional seed分子的物化性質(紅線)和生成分子的物化性質(藍點)

PCB模型的一大優勢是可以直接操控生成分子的實體化學性質。圖5展示了從DRD2測試集中随機選取10個分子作為conditional seed,分别生成256個分子SMILES的實體化學性質分布。可見,除了QED,其他生成分子的屬性與目标屬性有較小方

Nat. Mach. Intell. | 利用條件循環神經網絡生成特定性質分子

圖6 變化某一性質同時保持其他性質不變。生成分子的性質(藍點)與目标性質(紅線)大體一緻。

圖6表明PCB模型可以單獨改變生成分子的某一性質,而保持其他性質不變。總體上,除了QED,生成分子的性質與目标性質有較小差距。然而,這是可預期的,因為QED是其他五個性質的權重和。若單獨改變QED大小,可能無法滿足其他目标性質,如圖6中箭頭所示;若單獨改變某一性質,而保持QED不變,則可能導緻其他性質也發生改變。

4

總結

作者提出了以分子描述符為輸入條件的條件循環神經網絡,實驗表明該模型與在ChEMBL上訓練的循環神經網絡和在DRD2上遷移學習的循環神經網絡相比,更有可能生成對DRD2有生物活性的分子。由于分子指紋包含分子的結構資訊,FPB模型生成的分子與conditional seed有極高的結構相似性。相反,PCB模型可直接生成更多樣化的具有目标屬性的分子。