本期介紹2019年8月發表在Journal of Medicinal Chemistry的研究工作,研究人員在具有X射線晶體學證明結合模式的化合物的基礎上采用了不同的機器學習方法生成模型用于預測不同類别的激酶抑制劑,且産生了意想不到的準确和穩定的預測。結果表明,新的機器學習模型具有相當大的實際應用潛力。
1. 背景介紹
酪氨酸、絲氨酸和蘇氨酸激酶是主要的藥物靶标,激酶抑制劑是惡性良性腫瘤學及其他方面研究最多的候選藥物之一。公共領域積累了近115000個具有明确活性測量的激酶抑制劑,使得這些抑制劑可用于大規模活性資料分析或計算篩選方法評估的優選。通過X射線晶體學廣泛研究了激酶及其與許多不同抑制劑的複合物,提供了對激酶的結構特征和其抑制劑的結合特征的基本見解。激酶-抑制劑複合物的X射線結構揭示了抑制劑的不同結合模式,其與結合位點的構象變化相關。
目前大多數可用的激酶抑制劑競争性地結合激酶活性形式的ATP輔因子結合位點,并被指定為I型抑制劑。相比之下,II型抑制劑與激酶的無活性形式結合,并被容納在ATP結合位點附近的誘導口袋中的基序和αC螺旋。此外,發現I1/2型抑制劑與中間體“DFG in /αC-helix out”構象結合,使得它們與I型和II型抑制劑差別開來。除活性位點抑制劑外,還發現其他類型的非共價抑制劑與激酶中的變構位點結合,常被稱為III型或IV型抑制劑。
雖然結構生物學已經對抑制劑結合模式和構象決定因素有了許多見解,但已經有許多可用的激酶抑制劑在結構上具有特征。研究人員提出了這樣的問題:是否有可能僅在基于化合物結構的情況下區分具有不同結晶學手段确認的結合模式的激酶抑制劑而不考慮額外的互相作用資訊。是以,應用目前最先進的機器學習方法來生成各種預測模型。
迄今為止尚未嘗試通過機器學習在分子圖表示的基礎上區分采用不同結合模式的激酶抑制劑。推導這種預測模型也與藥物化學的實踐相關,以鑒定新開發的抑制劑的結合模式,為設計抑制劑類型特異性優化政策提供基礎。
2. 實驗方法
2.1 化合物選擇
從KLIFS中選擇不同類型的激酶抑制劑,從蛋白質資料庫(PDB)收集和整理激酶-抑制劑複合物的X射線結構。KLIFS使用開源虛拟機3D-e-Chem-VM獲得DFG基序、αC-螺旋和結合抑制劑的構象狀态的資訊。為排除片段,僅考慮分子量至少為250Da的抑制劑。對于標明的抑制劑,使用OpenEye工具包生成标準化SMILES。
2.2 全局模型和平衡模型的訓練集和測試集
模型建構實作了兩種不同的驗證政策。第一種政策中,将每種類型的抑制劑随機分成相同大小的訓練和測試子集(即50-50%分裂)。對于每個二分類任務,将來自兩個不同類的子集組合以産生最終訓練和測試集。對于全局模型使用所有化合物,是以訓練和測試集包含不同數量的每種類型的抑制劑。對于平衡模型,将訓練集中随機選擇的不同類型的抑制劑的數量調整為較小的子集。是以,在這種情況下使用具有不同标簽的相同數量的訓練化合物。
2.3 分子表征
作為機器學習的分子表示,使用ECFP4和MACCS;ECFP4是一個特征集指紋MACCS是片段指紋。ECFP4是使用基于OEChem和MACCS使用基于RDKit的Python腳本生成。
2.4 機器學習方法
使用随機森林(RF)、支援向量機(SVM)和深度神經網絡(DNN)算法生成分類模型。
2.5 超參數優化
在超參數優化下訓練模型顯示,使用标準參數設定已經實作了最佳性能水準。觀察結果表明,模型性能總體穩定,不依賴于RF和SVM方法的非常具體的參數設定;然而,一些優選參數通過優化來确定。
2.6 性能評估
除了生成ROC曲線和計算AUROC值之外,還使用三種不同的度量評估模型性能,包括平衡準确度(BA),正常F1分數和馬修斯相關系數(MCC)。
TP:真陽性
TN:真陰性
FP:假陽性
FN:假陰性
3. 實驗結果
3.1 不同類型的激酶抑制劑
化合物選擇,總結了基于結構的抑制劑選擇方案。
圖1
所考慮的四種抑制劑的代表性結構和化合物。
圖2
3.2 基于機器學習的抑制劑分類
根據從X射線結構推導出的不同結合模式,産生用于分類激酶抑制劑的預測模型。
圖3
組合非變構抑制劑區分具有完全不同機制的變構抑制劑與具有相似機制的非變構抑制劑。應用了随機森林(RF),支援向量機(SVM)和深度神經網絡(DNN)算法作為機器學習的方法。對于每個分類任務和方法,生成全局和平衡模型。全局模型是在不平衡訓練集的基礎上得出的,使用所有可用的抑制劑和平衡模型,基于包含相同數量的不同類别抑制劑的集合。
圖4
訓練、測試和驗證集的生成采用了兩種不同的政策。政策一:将化合物分成均勻大小的訓練和測試集,并進行10次獨立試驗。政策二:20%的化合物被排除在模組化之外作為外部驗證集,其餘80%用于政策一在10個獨立試驗中訓練和測試模型。是以,與測試集相比,外部驗證集保持不變,并且由在訓練和測試期間從未遇到過的化合物組成。
3.3 全局模型
最初,評估了圖4中政策I導出的全局模型,并在ROC曲線中監測預測。一緻地觀察到高預測準确度,ROC曲線下面積(AUROC)值為0.9及以上。使用替代指紋的計算之間隻有很小的差異。總體而言,基于ECFP4的計算在某些情況下表現略微提高,但沒有顯着差異。
圖5
3.4 平衡模型
在政策I之後的平衡訓練集的基礎上生成模型,其在機器學習中通常比從不平衡資料導出的模型更具預測性。所有分類任務和模型中都觀察到了高預測精度。總之,平衡模型的結果與全局模型的結果相對應。兩種類型的模型都産生了準确和穩定的預測,并且在不同試驗中具有低标準偏差。總體而言,在平衡條件下觀察到SVM模型的最高預測準确度,其次是RF和DNN模型。
4. 讨論
本項研究中,研究了用于預測具有不同結合模式的激酶抑制劑的機器學習方法。區分不同類型抑制劑并探索其活性和選擇性特征是藥物化學中的熱點問題,用于模組化的所有抑制劑都通過X射線晶體學證明結合模式。然而,對于機器學習,化合物僅使用分子指紋表示而不考慮其他資訊,定義了不同的預測任務以區分不同類型的抑制劑。
鑒于高性能水準,DNN沒有優于RF和SVM模型的優勢。應該指出的是,本研究隻能獲得有限數量的X射線晶體學訓練資料,限制了DNN訓練的能力。此外,目前和許多其他複合分類的機器學習練習通常使用明确定義的分子表示,如指紋或數字描述符數組;這種表述的使用并沒有發揮深度學習的優勢。因為深度學習架構相對于其他機器學習方法的性能提高通常可歸因于初始深度表示學習。然而,另一方面,深度學習MT-DNN架構使得能夠實作多類模型來預測抑制劑類型,使得可以一緻地使用所有可用的訓練資料,進而進一步改善深度學習的基礎。總之,研究結果表明,為預測不同類型的激酶抑制劑而得到的機器學習模型是穩健和準确的。是以,這些模型應該具有相當大的潛力用于各種實際應用。