天天看點

J. Cheminform. | GraphSol:預測接觸圖助力蛋白質溶解度預測

J. Cheminform. | GraphSol:預測接觸圖助力蛋白質溶解度預測

今天給大家介紹中山大學楊躍東教授課題組發表在Journal of Cheminformatics上的一篇論文。該論文指出蛋白質的溶解度對于生産新的可溶性蛋白質非常重要,但是目前預測蛋白質溶解度的方法大多基于氨基酸的一維嵌入,僅限于捕獲空間結構資訊。針對上述問題,作者開發了一種新的結構感覺方法——GraphSol,通過注意力圖卷積網絡(GCN)預測蛋白質的溶解度,其中蛋白質拓撲結構屬性圖是通過預測序列的接觸圖建構的,結果顯示GraphSol明顯優于其他基于序列的方法。

1

介紹

近20年來,蛋白質的溶解度在生物技術和制藥工業的蛋白質生産中起着重要作用。現有的預測蛋白質溶解度的計算方法主要是:基于實體的方法和基于機器/深度學習的方法。在基于實體的技術方面,大多數工作集中在利用分子動力學模拟來評估(聚集和溶解狀态間)的自由能差,但這些方法通常準确性有限。而對于機器/深度學習技術,大部分方法主要基于LSTM和CNN,沒有利用蛋白質分子的空間資訊。

随着蛋白質結構預測的最新發展,蛋白質接觸圖的預測效果得到改善,預測的蛋白質接觸圖可以高精度地表示2D結構特征。在這項研究中,作者通過結合預測的接觸圖和圖神經網絡,以新穎的結構感覺方法GraphSol預測蛋白質的溶解度。作者表明這是第一項通過圖神經網絡對蛋白質進行基于序列的溶解度預測的研究,并且該結構可以輕松應用于蛋白質的廣泛任務中,例如蛋白質功能預測,蛋白質-蛋白質互相作用預測,蛋白質折疊和藥物設計。

2

模型

這項工作中,作者将蛋白質溶解度預測任務轉換為基于圖的回歸問題。給定一個由????個氨基酸組成的蛋白質序列,整個蛋白質是以可以表示為拓撲屬性圖????(????,????),其中F代表所有殘基(節點)的特征集,????代表殘基接觸(邊緣)。根據預測的蛋白質接觸圖,通過圖卷積神經網絡模型輸出預測的溶解度。

GraphSol模型包括三個部分。如圖1所示,第一部分是圖卷積網絡(GCN),它在疊代過程中從其節點和邊緣聚合蛋白質結構資訊。第二部分是一個自注意層,它将不同大小的節點隐藏狀态轉換為具有固定大小的圖形表示向量。最後,這個固定大小向量将經過全連接配接層以預測蛋白質的溶解度。

J. Cheminform. | GraphSol:預測接觸圖助力蛋白質溶解度預測

圖1 GraphSol

3

實驗

資料集

為了訓練模型,作者使用了eSOL資料集,共有2737種蛋白質序列。從這些序列中,随機選擇75%(2052個蛋白)作為訓練集,其餘685個蛋白用作獨立測試。對于外部獨立測試,作者選擇了從釀酒酵母中收集的另一個蛋白質資料集。該資料集是通過包含108種具有相應3D結構的蛋白質而得出的。資料集考慮了如表1所示的四種節點特征。

J. Cheminform. | GraphSol:預測接觸圖助力蛋白質溶解度預測

表1 資料集節點特征

實驗結果

作者測試了eSOL資料集上GraphSol模型的性能。如表2所示,對于5折CV和獨立測試,獲得的R2值分别為0.476±0.014和0.483。當通過0.5的臨界值将資料集分為兩個離散狀态(可溶或不可溶)時,對于5折CV和獨立測試,AUC值分别為0.855和0.866, CV和獨立測試的相似結果表明了GraphSol模型的魯棒性。為了表明特征組的重要性,作者在消融研究中通過3種方式評估了性能。如表2所示,當将單個要素組用作節點要素時,在獨立測試中,HHM産生的R2最高。預測的結構特征組(SPIDER3)的性能最差。相反,當去除單個基團時,去除SPIDER3導緻最大的下降,這可能是因為SPIDER3提供了唯一的結構資訊,而其他功能則具有補充功能。當通過遞歸添加特征組來評估模型時,模型會随着每個特征組的添加而顯示出遞增的性能。添加SPIDER3特征後,性能迅速提高,這反映了溶解度和結構特征之間的關系。

J. Cheminform. | GraphSol:預測接觸圖助力蛋白質溶解度預測

表3 方法比較

4

總結

這項研究中,作者提出了一種基于序列的預測蛋白質溶解度的方法GraphSol。與其他方法相比,GraphSol利用了預測的蛋白質接觸圖,該圖在連接配接蛋白質拓撲屬性和注意力圖神經網絡中發揮了關鍵作用。作者指出,殘基之間的預測接觸機率比離散狀态更能表示成對關系,這種方法在蛋白質功能預測、蛋白質互相作用預測、蛋白質折疊和藥物設計等蛋白質屬性預測方面具有潛在的應用價值。

繼續閱讀