天天看點

JMC | 藥物發現中的遷移學習

導讀

藥物發現工作中可用于訓練計算模型的資料集通常很少。标記資料的稀疏可用性是人工智能輔助藥物發現的主要障礙。解決該問題的一種方法是開發可以處理相對異構和稀缺資料的算法。遷移學習是一種機器學習方法,可以利用其他相關任務中現有的,可推廣的知識來學習帶有少量資料的單獨任務。深度遷移學習是藥物發現領域最常用的遷移學習模型。本文概述了迄今為止轉移學習和藥物發現的相關應用。此外,它為藥物發現轉移學習的未來發展提供了前景。

JMC | 藥物發現中的遷移學習

1

簡介

藥物發現和開發的過程耗時長、成本高、失敗率高。從一期到藥物上市的臨床失敗率超過90%,而推進一個新的治療處方到上市審批的相關成本估計高達28億美元,大約需要11-16年。許多計算方法被提出來降低臨床失敗率。早期的定量構性關系(QSAR)模型利用回歸模型來尋找分子描述符和生物特性之間的聯系。機器學習方法(支援向量機算法和決策樹)已被應用于藥物發現任務中(如類藥物分類和吸收、分布、代謝、排洩和毒性性質的預測)。近年來,深度學習這一新興的人工智能(AI)技術的實施,加速和改善了藥物發現過程,并在分子性質和活性預測、虛拟篩選、逆轉錄分析和分子生成等應用中取得了令人矚目的成果。與傳統的 "淺層 "機器學習方法相比,深度學習采用的是具有多個隐藏層的深度神經網絡,可以表示和學習更複雜的知識。大資料通常指的是具有量大、種類多、速度快(即資料集的更新頻率是實時的)、窮盡性(即有足夠的資料來捕捉整個系統的特征,而不是樣本)、價值大(即可以提取很多洞察力,資料可以重新利用)等特點的資料集。這些特點使得傳統的軟體或方法很難或無法處理大資料。機器學習方法尤其是深度學習的性能很大程度上取決于訓練資料的大小。在有限的假設類中,較大的樣本量會産生更準确的模型。然而,在藥物發現過程的每個階段,标記資料的規模都很小,通常從十到幾萬不等。是以,藥物發現研究産生的資料量通常不會很 "大",因為标簽資料的産生需要耗時且昂貴的實驗。是以,标簽資料的稀缺性是深度學習輔助藥物發現使用的主要限制。相比之下,遷移學習是一種機器學習技術,它是通過利用相關資料集所包含的知識來解決資料稀缺的問題而提出的。遷移學習已被用于解決計算機視覺、自然語言處理和藥物發現等許多領域的低資料任務。

2

遷移學習(Transfer Learning)

NeurIPS 95年的會後研讨會上讨論了遷移學習學習的基本動機和潛在的好處,題為 "學會學習:歸納系統中的知識鞏固和遷移",探讨了如何利用以前學到的知識來促進未來的學習任務。那次研讨會上,探讨了如何設計一個能夠轉移知識的計算機程式的概念。從那時起,遷移學習逐漸成為學術界和工業界的一個話題。相關的創新算法,如終身學習、歸納遷移、多任務學習、元學習、持續學習等都被提出并應用。然而,遷移學習并沒有一個明确的定義,直到2010年,Yang等人對轉移學習及其相關概念進行了權威的定義。遷移學習(transfer learning)通俗來講,就是運用已有的知識來學習新的知識,核心是找到已有知識和新知識之間的相似性。在遷移學習中,我們已有的知識叫做源域(source domain),要學習的新知識叫目标域(target domain),源域和目标域不同但有一定關聯,我們需要減小源域和目标域的分布差異,進行知識遷移,進而實作資料标定。

JMC | 藥物發現中的遷移學習

遷移學習的方法總可以分為四類:基于執行個體、基于特征、基于參數和基于關系。不同類别的方法可以進行組合,以達到更好的性能。

JMC | 藥物發現中的遷移學習

3

深度遷移學習(Deep Transfer Learning)

深度遷移學習(DTL,Deep Transfer Learning )是深度學習架構和遷移學習的結合。目前大多數的遷移學習應用都采用了DTL技術。最常見的DTL技術之一是微調,它是一種基于參數的遷移學習。通過利用深度神經網絡中與神經元之間的連接配接相關的學習參數(權重)包含學到的有用資訊,通常可以通過将這些參數(權重)遷移到目标模型中,以更好的性能解決相關目标問題。例如,在分子生成模型中,通常在ChEMBL這樣的大資料集上預訓練模型,然後在特定的目标資料集上用小資料對模型進行微調,以生成特定的功能分子。從第一個模型中得到的參數作為第二個模型的初始化。Jason Yosinski等人進行了一項關于微調卷積神經網絡(CNN)的計算實驗,CNN是一種常用于圖像識别的神經網絡。該研究表明,遷移參數初始化比随機參數初始化更好。

JMC | 藥物發現中的遷移學習

由于深度神經網絡具有強大的特征學習能力,是以也可以應用于基于特征的遷移學習。基于特征的方法利用深度神經網絡作為特征變換器,找到一個共同的潛在特征空間,源資料和目标資料可以處于相同的機率分布。是以,源資料可以作為目标資料在潛特征空間中的訓練集,有助于提高模型對目标資料的性能。例如,在傳統的機器學習模型中,兩個具有不同終點的分子資料集(如毒性和生物活性)屬于兩個獨立的任務,是以通常需要兩個不同的模型來學習這兩個任務。如果預測毒性的任務具有稀疏的資料,活性資料集就不能直接用于訓練毒性預測模型。但是,DTL可以将這兩種資料轉化為存在于同一個潛在特征空間中,兩個資料集處于相同的分布。那麼,活性資料就可以作為一個更大的訓練集,在潛在特征空間中進行毒性預測。有兩種常見的方法可以獲得深度神經網絡所需的領域不變量特征。一種是基于差異的方法,在訓練過程中減少和潛在特征空間的差異。另一種是基于對抗性的方法,這是一種很有前途的方法,可以在不同的域中生成複雜的樣本。這些方法在神經網絡中增加了域分類器,可以對資料來自哪個域進行分類。深度神經網絡被訓練成學習一個能騙過領域分類器的特征表示。這是一個對抗性的目标,因為領域分類器被期望是準确的,但學習的特征表示卻被期望能騙過領域分類器。是以,網絡得到的變換特征不能區分兩個域。基于對抗式的遷移學習方法由于不需要使用預設的距離函數,并且表現出了優異的性能,是以近年來很受歡迎。

4

藥物發現中的遷移學習

遷移學習最早是在20世紀90年代提出的,但首次應用于藥物發現是在2010年。直到過去幾年深度遷移學習方法被提出并應用于藥物發現,才引起人們的重視。遷移學習主要應用于藥物發現的三個方面:分子性質和活性預測、分子生成和基于結構的虛拟篩選。

JMC | 藥物發現中的遷移學習

預測分子活性或性質

藥物發現中最常見的任務之一是預測分子的活性或特性,包括生理特性、生物實體特性、實體化學特性和量子力學(QM)特性。這些性質的預測在藥物發現中起着重要作用。例如,屬于生理屬性的嚴重毒性可能會導緻臨床試驗失敗或準許的藥物退出市場。描述生物實體特性的基準資料集包括MUV,HIV,PDBbind和BACE,實體化學特性和QM特性分别對應原子級和電子級特性。它們的常用資料集分别是FreeSolv和QM9。基于深度學習的人工智能方法已經被證明是與分子性質和活性預測相關任務的強大工具。Korotcov等人在8個資料集上評估了DNN和其他5種傳統的機器學習方法用于藥物研究中的活性預測。他們發現當根據7個名額的平均得分進行比較時,DNN優于其他方法。

為了解決深度學習在小資料情況下的不足,遷移學習被應用于分子性質預測和活性預測。Girschick等人首次将距離學習和歸納遷移結合起來執行QSAR任務,發現結合的方法在大資料集和小資料集上都表現良好。雖然該研究不是針對低資料問題設計的,但它确實證明了遷移學習對于小資料集的潛在價值。在分子活性和性質的預測中,最常用的DTL方法是微調。對于QM性質預測,Smith等人在ANI-1資料集的大的、較低精度的密度函數論(DFT)資料(5M)上訓練了一個神經網絡,然後在較小的資料集(500K)上進行微調,在耦合簇的高精度水準上,考慮單、雙、擾三激發(CCSD(T))/完全基集(CBS)極限。他們的研究表明,遷移學習方法在GDB-10t基準上實作了約20%的預測精度誤差降低。他們還在分子扭轉基準上成功測試了遷移學習網絡。同樣,Lu等人将微調政策應用于深度張量神經網絡(DTNN)上,将知識轉移到更精确的分子能量預測和構象分析上。除了提高預測精度,他們發現微調還減少了訓練時間。除了監督學習,一些弱監督或無監督的方法也被開發出來用于分子性質的預測。對于可轉移性質預測,Goh等人提出了ChemNet,一個在ChEMBL資料上預訓練的CNN,并利用Tox21、HIV和FreeSolv資料進行微調,結果表明,微調比單獨使用ChemNet有顯著改進。總之,微調可以很好地适用于各種網絡架構,包括NN、CNN和LSTM。

JMC | 藥物發現中的遷移學習

遷移學習可以通過借用較大的源資料集的知識,提高小資料集中分子性質和活性的預測,進而提高模型的準确性和訓練時間。但對于歸納遷移學習問題,如毒性資料集和藥物副作用資料集之間的知識遷移,則不太适合。在選擇應用遷移學習之前,應仔細考慮任務相關度。

分子生成

分子生成的目的是利用生成模型來建立具有特定性質的類藥分子,這一過程與新藥設計密切相關。如果分子生成能夠為靶點定義完美的分子,那麼它就可以取代de novo藥物設計。微調是分子生成中最常用的遷移學習技術。Segler等人首先在ChEMBL上用140萬個分子訓練了一個基于LSTM的生成式神經網絡,使得該模型能夠生成有效的化學結構。然後,他們在與特定靶點相關的小資料集上重新訓練了該網絡,并重制了14%和28%的針對金黃色葡萄球菌和惡性瘧原蟲的未見測試分子。他們還比較了從零開始的訓練和微調,發現微調減少了錯誤測試,加速了模型訓練。Awale等人利用類似的方法生成藥物類似物。他們使用來自包括ChEMBL、DrugBank、市售片段和FDB-17在内的資料集的分子訓練了一個LSTM。

JMC | 藥物發現中的遷移學習

分子生成中,遷移學習主要用于解決對應于預先指定的靶标或生物活性的具體問題。微調已經被驗證為解決此類不同任務的實用方案。強化學習(RL,Reinforcement learning )是一種用于解決動态決策問題的技術,是另一種常見的機器學習方法,用于生成特定靶标的分子。RL通過與環境互動學習,這種訓練中,作為決策者的代理可以采取行動來改變自身的狀态,狀态空間中的每個狀态都有一個與環境相關的獎勵。RL算法的目标是選擇能使預期累積獎勵最大化的順序動作。分子生成中,動作集可以定義為整個用于編碼化學結構的字母和符号的集合,作為SMILES字元串,狀态集可以定義為所有SMILES字元串。RL試圖通過搜尋狀态動作空間來直接尋找理想的結果,而狀态動作空間通常由其他不準确的機器學習模型定義,有時計算成本很高。與RL相比,精細化限制了輸入空間,用特定的資料集來限制結果,而不是用定義的獎勵函數進行搜尋。是以,基于微調的這些特定任務的應用很大程度上取決于活性化合物的數量。少量的活性化合物會導緻模型優化的梯度不穩定,這對神經網絡訓練過程不利。作為常用的分子生成方法,RL和微調有各自的特點,可以結合使用。事實上,遷移學習已經被引入到強化學習領域,作為加速訓練過程的一種手段,

基于結構的虛拟篩選

基于結構的虛拟篩選(SBVS)是藥物發現的正常工具,它可以通過計算從大型化合物庫中富集潛在的活性分子,加速藥物發現并降低成本。然而,傳統的SBVS強烈依賴于對接和打分方法的力量,這遠遠不能令人滿意。近年來,基于機器學習的虛拟篩選方法(成為SBVS的一個有前途的選擇。Ashtawy等人在PDBbind 2007資料集上評估了16個傳統的打分函數和6個基于機器學習的打分函數。在多樣化的核心測試集上,基于機器學習的打分函數優于傳統的打分函數,優于或相當于頂級的傳統方法。與傳統的虛拟篩選方法相比,基于機器學習的方法大大提高了虛拟篩選在DUD-E資料集上的預測性能,DUD-E資料集是一個廣泛使用的分子對接和虛拟篩選測試基準。為了對特定靶點獲得更好的結果,Imrie等人對特定靶點的通用模型進行微調,建構蛋白質家族的特定模型,使用遷移學習在AUC-PRC值上給出了平均18.3-24.0%的改進,顯示了遷移學習作為改進特定模型的政策的威力。

5

多任務學習(Multitask Learning)

多任務學習指在一個模型中利用共享知識(權重)學習多個任務,與之相反的是遷移學習,即通過從源任務中轉移知識來學習目标任務。雖然多任務學習和遷移學習密切相關,但它們在幾個關鍵方面有所不同。遷移學習隻尋求利用源任務中的知識來提高目标任務的性能。這種情況下,源任務被視為已解決。另一方面,多任務學習的目的是同時解決多個任務,并學習一個共享的表征/模型,該表征/模型對所有研究的任務都表現良好。多任務學習和遷移學習中,學習一個共享的表示或知識,以幫助提高模型的性能。多任務學習在很多情況下都是實用的,因為它可以隻用一個模型來預測不同的任務。

6

藥物發現中的多任務學習

多任務模型是一種對多種活動具有預測能力的組合模型,它可以用不同活動集的資料同時進行訓練,最終可以産生具有增強預測能力的多活動預測。Varnek等人首次将多任務學習應用于QSAR/QSPR中,在隻有一個隐藏層的淺層神經網絡上預測tissue-air配置設定系數,并發現多任務學習相對于單任務模型提高了模型的性能。自深度學習興起以來,深度多任務神經網絡已被證明是利用多樣化醫藥資料集合的強大工具。對多屬性預測的研究表明,多任務學習比單任務學習有優勢。Mayr等人在Tox21挑戰賽中獲勝,并使用多任務DNN獲得了毒性預測的最高精度。Li等人使用基于自動編碼器的DNN對人類細胞色素P450抑制劑進行預測,發現多任務DNN明顯優于單任務DNN和其他機器學習方法。多任務學習還被應用于分子特性和活性預測以外的任務。例如,Ye等人建構了一個結合微調和多任務學習的模型來預測四個人體藥代動力學參數。除了在測試集上有更好的表現外,多任務學習還具有更好的通用性。Feinberg等人比較了基于31個檢測資料的多任務GCNN、單任務GCNN和最先進的随機森林進行ADME/T預測。為了評估模型對其他檢測資料的泛化能力,他們進行了兩項交叉驗證研究和一項保持性驗證研究,并對未來的資料進行了預後分析預測。多任務GCNN在所有驗證評估中取得了最好的結果,在實驗測試中産生了最精确的預測。但我們需要注意的是,本研究中的泛化性是指在同一任務中對外部資料或實驗資料的泛化能力,而不是遷移學習中不同任務之間的泛化能力。Xu等人對多任務學習的優勢作了如下解釋:多任務學習可以從訓練集中借用具有相似結構的分子的資訊特征,并将這些知識應用于其他任務,特别是在活動是相關的情況下。根據該解釋,可以知道多任務神經網絡可以通過模型的共享層的訓練,獲得所有資料集更好的、共享的特征表示來預測任務。是以,它有助于學習知識在任務之間的遷移。

多任務學習在藥物發現領域有很大的進一步發展潛力。盡管多任務學習具有積極的屬性,但它也存在一些缺點。其中一個重要的問題是多任務學習應該被設計成雙赢模型、權衡模型還是零和模型的不确定性。作者的調研中,共享表示被證明是非常敏感和資料依賴的。例如,任務相關度的因素和訓練資料的不同分布會産生一個好的或壞的多任務模型。共享底層表示法可能會改善一兩個任務,但會傷害其他任務。Ma等人将門控網絡引入多任務神經網絡,根據不同任務之間的關系來調整不同任務的重要性權重,試圖解決多任務學習的一些挑戰。類似的政策也可以用于藥物發現問題,以充分利用已知資料。與遷移學習相比,多任務學習更适用于具有相關任務共享分子的資料集。但對于一些關聯性較小的任務,遷移學習仍然比多任務學習更适合,因為它不需要在任務之間取得平衡,優先級在目标任務上。

7

讨論

遷移學習是一種針對小資料問題的有用政策,可以提高特定任務的模型能力。是以,它對藥物發現有好處,如通過加速訓練的收斂來降低計算成本,提高資料稀缺任務或特定任務的預測性能。

遷移學習在藥物發現中的應用還處于初級階段,在相關理論研究方面還有很多需要研究的地方。例如,目前還沒有統一的名額來評價遷移學習方法的性能。實踐中,人們通常根據模型在特定任務中的表現來評價遷移學習,如提高精度或減少錯誤。是以,在應用之間進行比較是很有挑戰性的。在一些基于特征的遷移的情況下,觀察到的性能改進可能部分是由于網絡複雜性的增加。此外,目前還沒有合适的基準資料集來評估遷移學習在藥物發現中的應用,而且由于遷移學習場景中的資料規模較低,過拟合問題應該備受關注。此外,包括深入讨論遷移學習方法與藥物發現相關的出版物也很少。

遷移學習在藥物發現中的實際實施面臨着幾個挑戰。第一個挑戰是如何量化不同任務之間的關聯性。遷移性能的好壞可能取決于源任務和目标任務,原因目前還不清楚。但是,很明顯在遷移學習中,任務的相關度比資料大小重要得多。是以,利用化學知識量化任務之間的關聯性對于藥物發現中的遷移學習非常重要。多任務學習中也存在這個問題。第二個挑戰是如何正确實作遷移學習方法。盡管微調政策對許多類型的模型都是有用的,但仔細設計網絡結構是一個非平凡的決定。負遷移,也就是遷移學習傷害了模型的性能,可能是由于方法選擇不當造成的。例如,預訓練GNN表現良好,但隻在圖層面預訓練時産生負遷移。最後,目前沒有通用的遷移學習方法選擇标準,因為沒有理論支援,很難評估遷移學習方法。但是,微調是有經驗規則的。例如,當目标資料太小時,固定一些層是避免過拟合的好方法。當目标資料沒有那麼小的時候,微調所有層仍然是最好的選擇。基于特征的方法已經顯示出作為解決藥物發現問題的政策的潛力,建議對這一類方法投入大量關注。

8

前景

資料集中的偏差會使機器學習方法看起來比在實際使用案例中的表現更好。鑒于訓練資料有偏差,如果測試資料不在訓練資料的分布範圍内,模型的性能可能會受到影響。這種資料集分布之間的不一緻被稱為資料偏差。例如,如果訓練資料集的大小很小,模型的預測可能與實驗結果不一緻,因為用于模型的資料集與真實世界實驗的資料之間存在資料偏差。遷移學習可能有助于緩解這一問題。基于特征的方法被設計成在不同領域中尋找相同的特征代表,它已經顯示出其在不同屬性之間的泛化能力,可以用來減少資料偏差的影響。目前已經有一些針對資料偏差而設計的遷移學習方法,這些方法可以應用在實際的藥物發現中。此外,多任務學習在ADME/T的時空分割驗證環境和預測中獲得了顯著的性能,顯示了其對真實世界檢測資料的普适性。

任何情況下都需要認真評估可遷移性問題,以确定是否可以使用遷移學習。重要的是建立一個标準的可遷移性定義,可以用來定量測量從源域到目标域的可遷移性。藥物發現中,定義可遷移性的一種可能方法是使用分子距離度量。之前有一些描述的方法來測量分子的相似性,如Tanimoto系數,化學距離測量,以及使用注意力模型的注意力權重。有必要找到一種合适的方法來使用平滑或連續的化學表示來測量分子距離,可以通過自動編碼器等方法來實作。這樣的化學表示法将有助于建立一個可靠的分子距離測量方法,并防止負遷移效應。定量遷移性在測試目标終點的某些實驗值具有挑戰性或昂貴的情況下是有用的。如果存在對可遷移性的測量,可以進行更容易和更便宜的實驗,對目标終點的高可遷移性作為遷移學習的來源。對于任務相關度難以定義的情況,基于特征的方法是一個不錯的選擇,而不是微調。基于特征的方法具有很好的通用性,因為它可以找到潛在空間中不同域的相似性。一個源域有時可能不足以改善目标任務,而從多個源域進行遷移學習,具有良好的可遷移性将是有益的。從多個源域進行遷移的政策已經被證明具有一些優勢。

有許多潛在的藥物發現問題可以通過遷移學習或多任務學習來解決。例如,遷移學習可以用來提高模型的通用性,用于預測分子性質和活性。遷移學習模型似乎是理想的綜合模型的折中方案。對于分子的生成,目前生成的模型是在一個由正回報驅動的過程中對活性化合物進行微調。同樣,可以想象一種負回報微調政策,通過逆向調整模型來避免已知的非活性化合物。使用這種政策,将有望提高分子生成的成功率。随着周期性的生成和驗證與新的驗證負化合物疊代添加,這種政策可能會更強大。某種程度上,這與主動學習類似,主動學習是一種疊代查詢最重要的未标記樣本的算法,然後為下一個訓練周期标記樣本,以指導性地改進模型。主動學習作為一種新興的人工智能技術,也已經成功應用于藥物發現問題。對于靶标-藥物互相作用研究,預測核酸-配體互相作用或核酸-蛋白質互相作用的模型可以借用蛋白質-配體和蛋白質-蛋白質互相作用的知識,這些模型有更多可用的标簽資料可供學習。多任務架構中同時訓練的具有打分能力、對接能力和篩選能力的評分函數需要進一步深入研究。

繼續閱讀