天天看點

JMC | 人工智能在藥物合成中的目前和未來作用(1)

人工智能和機器學習已經證明了其在預測化學性質和小分子合成設計中的潛在作用。資料驅動的合成路線設計是由MLPDS(Machine Learning for Pharmaceutical Discovery and Synthesis)聯盟開發和評估的一部分,該聯盟包括MIT和13個化學和制藥公司成員。他們一起寫了“Current and Future Roles of Artificial Intelligence in Medicinal Chemistry Synthesis”刊登于2020年4月JMC,分享了如何将預測模型整合到藥物合成工作流程中,如何在MLPDS成員公司中使用預測模型以及該領域的前景。

JMC | 人工智能在藥物合成中的目前和未來作用(1)

名詞

CASP

Computer Aided Synthesis Planning

計算機輔助合成路線設計

MLPDS

Machine Learning for Pharmaceutical Discovery and Synthesis

DMTA

design, make, test, analyze

ASKCOS

Automated System for Knowledge-Based Continuous Organic Synthesis

全文分為三個Section,本文主要介紹Section 1。

Section 1: CASP如何幫助藥物化學發現;

Section 2: 如何在制藥和化學工業中使用CASP;

Section 3:如何使CASP更好。

JMC | 人工智能在藥物合成中的目前和未來作用(1)

簡介

目前估計将一種藥物推向市場的成本超過26億美元,其中很大一部分可歸因于兩個因素:經曆過臨床試驗的候選分子的曆史高損耗(損耗率超過85%4)以及先前發現階段的複雜性,需要大量的時間和資源投資。就總準許而言,更強大的臨床前候選産品将對下遊産生有益的影響。計算機硬體和計算機技術方面的進步旨在加快并改善藥物化學的經典設計、合成、測試、分析(DMTA)周期的各個方面。人們越來越關注的一個領域是在合成)段使用資料驅動的合成預測工具來加速和減少新分子實體合成中的失敗。

JMC | 人工智能在藥物合成中的目前和未來作用(1)

計算機輔助合成路線設計(CASP)的曆史可以追溯到1960年,當時Corey小組首次公開了LHASA,這是一種基于規則的逆向合成設計方法。該開創性出版物對于定義化學合成的啟發式方法至關重要,這對于合成計劃軟體可能是必需的。許多小組公開了1960年至1990年計算機輔助合成設計的進展,但很大程度上受到計算資源的限制,且主要依賴于人類編碼的反應規則。

這些早期的後代是某些商業軟體包的靈感來源,例如Synthia(以前稱為Chematica)和ICSynth,其中将手編碼的反應規則與指導試探法結合使用以浏覽合成途徑。僅在過去的二十年中,才有了更多用于合成設計的自動化方法,例如那些使用稱為機器學習(ML)的AI方法的子集從已釋出的反應資料中推斷反應模式的方法,成為了基于“專家”規則的可行替代方案。算法、專家編碼規則和ML方法都可以被視為AI方法:前者是使用制作的知識的所謂“第一波AI”的示例,而後者是使用統計學習的“第二波”的示例。每種方法都給合成設計軟體帶來了自己獨特的優勢。專家編碼的規則有機會在資料量較低的情況下表現出色,因為對于特定的轉換而言,這種資料記錄可能隻有1-4個反應。盡管有積極的研究将機器學習用于低資料,但這尚未成功地應用于合成設計。然而,由于提取/訓練過程的自動化,機器學習方法可以很容易地擴充包含新的反應,因為它們可以自動提取/訓練,進而減輕了專家的負擔。随着更多的反應在公司内部進行,自動過程可以使預測更加可靠。

機器學習和基于規則的方法都已證明在設計已在實驗室中執行或由化學家評估為值得嘗試的合成路線方面取得了成功。例如,Synthia已被用來尋找藥物相關化合物的合成路線,與專家開發的路線相比,甚至還提高了總産量;Segler等發現化學家在雙盲評估中不希望使用經過文獻驗證的路線以其算法提出的路線;自動化平台已與合成設計工具相結合,盡管人工幹預水準有所不同。盡管該領域仍處于早期階段使用CASP進行全自動合成設計,這些最初的成功證明了該工具在DMTA周期中的實用性。

從2018年5月開始,麻省理工學院的研究人員團隊在藥物發現與合成機器學習(MLPDS)聯盟的背景下與13家制藥和化學公司密切合作,該聯盟的目标是開發基于機器學習的算法和工具來加快DMTA周期的制造階段(圖1)。

更具體地說,該觀點将描述人工智能在藥物合成中的許多作用,包括(1)可以整合到藥物化學工作流程中;(2)已經整合到某些制藥公司中,以及(3)需要進一步的作用。發展以完成更宏大的任務。圖2中,專注于計算機輔助合成設計(CASP)的三個主要任務:逆合成設計、反應條件推薦和正向反應預測。

JMC | 人工智能在藥物合成中的目前和未來作用(1)

基于ML的CASP的逆合設計

1. 确定可合成目标和路線方案

在DMTA疊代中合成新的小分子的傳統方法涉及手動計劃和手動執行。專業化學家的任務是評估拟定目标的合成能力,導緻評估成百上千個分子時速度變慢。由于合成資源(SA)的原因,特定系列的先導化合物可能比其他先導化合物更可取,因為财務資源和時間限制限制了可以并行使用或設計的化合物的數量。Retrosynthesis軟體通過生成假設的合成路線來緩解手動合成評估的瓶頸,該合成路線可用于通過易于合成來快速确定化合物的優先順序,進而為化學家提供更為集中的化合物集,作為專家路線規劃的起點。最後,使用逆向合成計劃平台可以為那些沒有經過多年合成化學教育訓練的團隊成員提供有益的合成建議,這對他們而言可能是無益的。

通過可合成性對化合物評分的兩類方法是使用基于結構的簡化啟發式算法或完全逆合成樹擴充。啟發式方法旨在從分子結構中捕獲SA的廣泛趨勢,并且傳統上一直使用專家定義的分子屬性功能。非線性回歸(例如,使用機器學習技術)可以代替概括由專業化學家配置設定的主觀分數,或在半監督的環境中使用以從化學反應的示例中學習。然而,實際上,合成靶标的能力高度依賴于特定的可購買構件的可用性,而不是分子結構的平滑功能。由于建構基塊的可用性取決于設定(例如組織,預算,發現與流程開發),是以一種更具通用性的評估可合成性的方法是将反合成擴充與針對應用量身定制的可購買化合物的定制資料庫一起使用。明确的逆向合成擴充的好處是,已經知道存在可以通路感興趣目标的轉化,并且可以使用合适的起始材料。但是,它的計算成本較高。但是,通過使用逆合成規劃工具以及足夠的時間和教育訓練,神經網絡模型可以開始近似這種高度非線性的功能。

JMC | 人工智能在藥物合成中的目前和未來作用(1)

逆向合成計劃軟體的兩大類是使用專家編碼的規則或啟發式方法生成推薦的軟體,以及學習(或推斷)如何生成推薦的軟體。許多逆合成方法依賴于反應模闆的使用-反應規則可以以SMARTS或SMIRKS格式存儲。從反應資料集中通過算法提取模闆的一般步驟是:1)識别反應中心或變化的原子,2)識别與反應中心相鄰的原子,以及3)添加反應中涉及的通用官能團。該方法捕獲了局部反應環境,但在大多數算法實作中,未捕獲有助于反應性的分子的全局特征。專家編碼的方法11可以更好地描述功能組的要求,但不能針對單個組織的能力進行定制。用于提取反應模闆的自動化管道允許對适當的資料集進行輕松的(重新)訓練,但也與專家方法不一緻。

對于實際使用反應模闆從輸入産物分子生成反應物分子的方法,幾種基于機器學習的方法都集中在學習哪種模闆提供最戰略性的斷開連接配接以及不同程度的複雜性。另一種方法是使用序列到序列模型,将一步一步的逆向合成任務視為産物和反應物之間的轉換。單步逆向合成推薦物足以讓化學家手動建構路線,一次一步。

通過使用樹搜尋,單步逆向合成功能可以擴充到完整路線設計。每個步驟可以産生成千上萬個前體,這需要一個指導性的搜尋政策來防止組合爆炸。可以通過SA啟發式方法11或經驗豐富的擴充政策15過濾候選前體,以擷取更易處理的化學品清單,以在下一個周期中進行轉換。可以通過遞歸地建議逐漸逐漸簡化直到滿足停止标準的單步逆合成前體來建構完整途徑。已經研究了樹搜尋的不同實作方式,包括深度優先,最佳優先,證明數搜尋和蒙特卡洛樹搜尋算法;直接比較方法很困難,因為定量評分仍然是一個挑戰。通常,一旦發現可以購買的前體,則逆合成搜尋終止。這使基準回歸合成算法複雜化,因為更大,更多樣化的可購買化學品資料庫将具有更高的終止機率,并且自然會顯得更加成功。可以使用其他停止标準,例如文獻中的出現次數或化學邏輯(定義允許的碳,氮和氧原子數),後者可以提供更高的标準化程度,但與實際應用無關。而且,鑒定途徑的能力不能保證其化學可行性。由于可以通過多種途徑合成同一靶标,是以最好的驗證方法是在實驗室中進行化學反應。對于生成的每條路線而言,這樣做顯然是非常昂貴的,而且耗時,而且不是驗證合成規劃中新方法的可擴充方法。

2. 建議和評估反應條件

計劃反向合成路線僅是整個CASP系統的一個方面。為了建議化學家可以進入實驗室,我們必須提出一套能夠實作所需轉化的反應條件。為反應找到最佳或可接受的條件集可能需要耗時的經驗篩選,才能确定最有效的方法。通常,化學家會針對該反應家族采用“典型”條件,而不會根據特定的目标底物來調整其選擇。選擇反應條件的偏差可能來自于個人經驗或試劑的即時可用性。原則上,如果對曆史條件資料進行适當訓練,則用于條件推薦的機器學習模型可以更客觀地推斷出合适的條件。

JMC | 人工智能在藥物合成中的目前和未來作用(1)

實際上,由于缺乏高品質的資料,很難開發這種模型。阻礙進展的主要資料問題是未充分披露1)數量,體積或濃度2)反應時間或動力學,以及3)試劑和催化劑的添加順序。盡管存在這些問題,但資料驅動的方法已證明能夠為特定的反應類别和更多樣化的反應組建議條件。這些模型為經驗條件下反應條件的優化提供了堅實的基礎,但仍缺乏執行所需的全部細節。條件推薦模型可能會被開發來适應特定化學領域(例如藥物化學或過程化學)的需求。在許多情況下,反應的目标是不同的,例如産率的重要性和副産物的形成。一個目标可能是預測我們希望在單個孔闆中平行進行的一組反應的“最佳”條件。在設計新的條件組合或新的催化劑或試劑的情況下,可能需要更具體的預測來找到單個反應的最佳條件。

盡管很難逃避對反應條件的經驗優化,尤其是對于複雜的底物或串聯催化,但人工智能技術也有機會加速這一過程。反應優化是一個公認的領域,并且存在許多用于選擇實驗條件以疊代地改善性能(例如,就産率,周轉數,通過量而言)的統計技術。用機器學習的話來說,這些是活躍的學習架構。最受歡迎的方法是基于模型的技術,該技術可根據反應條件建構反應性能的替代模型。可以在這些模型上分層放置各種搜尋政策(例如,貝葉斯優化),以幫助選擇下一組條件來嘗試和優化模型。盡管這些概念并不新鮮,但是基于機器學習的模型有潛力提供更好的性能和不确定性估計,進而加快搜尋速度。

3. 正向反應預測

CASP的第三個關鍵任務是通過預測(至少定性地)反應産物,確定通過算法綜合設計獲得的建議是可靠且可行的。化學家可能會通過搜尋相似的轉化,閱讀文獻并确定合成方法是否能推廣到感興趣的底物來評估反應的可行性。資料驅動技術經過廣泛的反應訓練後,可以學習執行相同的概括。用于反應預測的機器學習方法包括嘗試從規則或模闆的預定義清單中推導反應規則,預測從起始材料到産物的原子和鍵變化的圖卷積神經網絡,以及預測産物SMILES的序列到序列模型。與逆合成模型的評估相比,正向合成模型更易于定量評估,因為原則上隻有一個真實答案。然而,實際上,缺乏精确的濃度,時間和溫度資料使反應預測成為一個不适定的問題。

JMC | 人工智能在藥物合成中的目前和未來作用(1)

這些正向反應預測因子也可以用于副産物預測。了解最可能的産品有助于識别可能産生有害或難以分離的中間體的反應。許多反應可導緻多種區域或立體異構化合物。有關反應選擇性和可能的副産物的資訊是确定合成優先級的關鍵方面,并且可能有助于結構配置設定。一旦這些模型能夠做出定量預測,它們對于純化政策的考慮和設計将是必不可少的。

除用于CASP外,還有其他用于反應預測的應用程式。根據專家定義的反應模闆列舉了許多按需制造的虛拟庫,這些模闆專注于旨在確定其功能強大的有限化學組合。據報道,按需定制庫中的化合物在4周内成功傳遞了約85%,在6周内成功傳遞了93%。54如此高的成功率證明了使用成熟的化學方法進行基于規則的方法的魯棒性。使用啟發式提取的模闆或不使用模闆的方法,可以将新的反應空間(例如,新出版物中描述的新穎的合成方法)實時地包含在自動化管道中。如果确定了目标并制定了逆合成計劃,則可以搜尋可用替代原料的所有組合。例如,如果第一反應是Suzuki偶聯,則可列舉所有可用的硼酸和芳基鹵化物的組合。然後,前向預測變量可用于對哪些組合可能導緻成功的反應進行評分。通過根據感興趣的化合物的性質進一步對這組資料進行排名,可以快速評估目标周圍可通路的化學空間,例如,用于藥物發現中的命中擴充。此功能與将面向多樣性的綜合目标內建到CASP中密切相關。