今天給大家介紹美國國立衛生研究院(NIH)和加拿大公共衛生局國家微生物實驗室在Nature Biotechnology上聯合發表的一篇文章“Biological activity-based modeling identifies antiviral leads against SARS-CoV-2”。該文章提出了一種基于生物活性模組化(BABM)的方法,在該方法中,經過多種測定建立的化合物活性譜被用作化合物特征,用來預測化合物對于新靶點或在其他測定中的活性。作者用BABM模型預測了311種對SARS-CoV-2具有潛在活性的化合物,其中32%的化合物在細胞培養活病毒測定中表現出抗病毒活性,有潛力進一步發展為抗SARS-CoV-2藥物。
研究背景
高昂的成本和操作瓶頸限制了先導化合物識别,導緻傳統的高通量篩選(HTS)通常限于1-2百萬種化合物。為此,最新的HTS進展實作了虛拟篩選(VS),能夠篩選數百萬具有潛在生物活性的化合物。然而,現有的虛拟篩選方法在預測生物活性時都嚴重依賴化合物的結構資訊,導緻虛拟篩選僅限于在已知配體結構和藥物靶點的相近結構中進行查詢。針對這一問題,作者提出了基于生物活性模組化的方法。由于BABM建立在“具有相似活性模式的化合物很可能具有相似的靶标或作用機理”假設的基礎上,BABM方法可利用化合物的生物活性進行預測。作者使用BABM方法建構了SARS-CoV-2的預測模型,識别了300多種抗SARS-CoV-2的化合物。作者進一步在活病毒分析中測定了這些化合物,确認了約100種化合物(>30%)具有抗病毒活性,進而驗證了BABM方法的實用性和準确性。
方法
作者使用一個兩步評分算法WFS構模組化型。首先,使用兩尾費舍爾精确檢驗确定活性化合物中每種特征與非活性化合物中特征相比的富集顯著性,并為資料集中存在的所有特征計算P值。對于測定活性資料,每個測定讀數均被視為特征,對于活性化合物,特征值設定為1,對于非活性化合物,特征值設定為0。如果某個特征在活性化合物的頻率比非活性化合物的頻率低,則将其P值設定為1。這些P值形成了“綜合”特征指紋,然後基于該指紋,根據公式(1)對每種化合物存在活性的可能性進行評分。
其中Pi是特征i的P值,C是化合物中所有特征的集合,M是在綜合特征指紋中編碼的一組特征,N是特征數量,α是權重因子,在文中描述的所有模型中均設定為1。WFS得分高表示化合物具有活性的可能性很大。整個模型的訓練,測試和驗證過程如圖1所示。模型性能通過AUC-ROC曲線下的面積進行測量。
圖1 模型訓練、測試和驗證過程
實驗
實驗資料和基準模型
表1概述了用于模組化的三類病毒靶點(SARS-CoV-2,ZIKV和EBOV)。其中,ZIKV NS1表示寨卡病毒非結構蛋白,EBOV表示埃博拉病毒。基準模型如表2所示,包括結構-活動組合模型(CM)、基于活動的模型(BABM)和基于結構的模型(SBM)。BABM-M(或CM-M)、BABM-S(或CM-S)和BABM-G(或CM-G)分别表示基于MLS、Sytravon和Genesis資料集的BABM(或CM)模型。
表1 用于模組化的病毒靶點概覽和模型識别的活性化合物統計
表2 建立在不同測試資料集上的模型
模型性能和實驗驗證
實驗結果如圖2所示,大多數模型在其相應的測試集上表現良好(圖2a),平均AUC-ROC值大于0.8。與BABM模型和SBM模型相比,CM模型表現出最佳性能,平均AUC-ROC值大于 0.83。為了進一步驗證模型并識别具有抗病毒活性的新化合物,作者為每個病毒靶點選擇了模型預測的活性成分子集進行實驗驗證,計算每個模型的正預測值PPV(TP /(TP + FP)),即通過實驗确定的模型預測的活性成分百分比(圖2b)。
圖2 模型性能和實驗驗證結果
識别抗SARS-CoV-2化合物
SARS-CoV-2 BABM模型預測的311種化合物的活性在活病毒細胞病變效應(CPE)測定中進行了測試,其中99種被證明具有活性,命中率為32%(圖2b)。模型的PPV範圍從32%(CM-S)到38%(BABM-S)。圖3總結了實驗确認的活性物的效力範圍,從圖3中可以看出,與相應的訓練資料集中的活性成分比例相比,所有模型預測的活性集都顯著富集了真正的活性化合物。實驗證明的SARS-CoV-2-活性化合物在8個濃度下進行了進一步測試,以得到更準确的效力度量。選擇的94種化合物中有9種在二級确認測定中表現為無活性,對SARS-CoV-2 CPE分析的确認率為90%。作者在CPE分析中還篩選了一些文獻中報道的某些已知的抗SARS-CoV-2化合物,尤其是目前正在進行COVID-19臨床試驗的那些化合物,其效力各不相同。相比之下,文章中的模型确定的抗SARS-CoV-2化合物的效力屬于已知的抗SARS-CoV-2化合物的範圍。
圖3 對模型預測的活性化合物的二次确認實驗結果
抗SARS-CoV-2化合物的抗病毒機制
針對SARS-CoV-2感染的治療幹預有多個靶點,包括病毒進入宿主細胞,3C樣蛋白酶對病毒多肽進行蛋白水解以釋放非結構蛋白和宿主細胞中的自噬通道。作者使用三種檢測方法進一步研究了85種經實驗證明的抗SARS-CoV-2化合物的潛在抗病毒機制。實驗結果表明,在85種抗SARS-CoV-2化合物中,有53個是通過SARS-CoV-2假型顆粒(PP)進入測定法測定的病毒進入抑制劑,通過GFP-LC3測定識别出35個是自噬調節劑,有52個化合物在至少一個自噬參數中處于活動狀态。這些結果表明自噬在模型識别的抗SARS-CoV-2化合物的抗病毒活性中起主要作用,并且這些化合物大多數是病毒進入抑制劑。
總結
文章中提出了BABM方法,該方法将化合物在多種生物測定中的測定結果作為化合物的描述符或特征,用于預測其它化合物的活性。與僅使用化學結構資料建構的傳統QSAR模型相比,BABM可以識别出與訓練集和SBM所識别的化合物在結構上不同的化合物,這證明了BABM在發現新化合物種類方面的優勢。結合傳統SBM與BABM,可以最大化最優先導化合物即目标治療靶點的新候選化合物的機會。此外,SARS-CoV-2 BABM模型識别出約100種抗SARS-CoV-2化合物,這些化合物經過實驗驗證在活病毒測定中顯示出抗病毒活性。