大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

文章連結: https://arxiv.org/abs/2409.04481

大語言模型因其展現出類人般的推理、工具使用和問題解決能力而備受矚目，此外，它在化學、生物學等專業領域也展現出深厚的了解能力，進一步提升了其應用價值。本文闡述大語言模型可以在了解疾病機制、藥物發現和臨床試驗三個藥物發現的基本階段展現出重要潛力。

首先，本文展示了過去、現在的藥物研發與臨床試驗中的過程并展現了大語言模型（LLMs）未來在這些階段的潛在應用。

了解疾病機制：

過去：依賴手動文獻和專利搜尋。
現在：除了手動文獻搜尋，還加入了功能基因組學分析。
未來：LLMs将自動識别靶基因，發現生化和藥理學原理。

藥物發現：

過去：通過天然産物的發現和随機篩選進行藥物研發。
現在：使用虛拟篩選和基于結構的手動藥物設計。
未來：LLMs将設計新型治療方法，自動生成藥物設計，并自動進行實驗。

臨床試驗：

過去和現在：手動比對病人與試驗、設計臨床試驗以及收集臨床試驗資料。
未來：LLMs将自動進行病人比對、試驗設計，并預測試驗結果。

大語言模型的分類

本文将大語言模型分為兩類: 科學大語言模型(Scientific Language Model)和一般大語言模型(General Language Model)。兩者的對比和差異如下:

科學大語言模型：

領域：涉及化學（分子）、生物學（蛋白質、基因）等專門領域。
訓練資料：包括化學中的SMILES、IUPAC序列，蛋白質的FASTA序列，基因的FASTA序列等。
任務解決能力：能夠處理分子、蛋白質、基因相關的任務，如逆合成規劃、反應預測、分子設計、蛋白質結構預測、基因網絡分析等。
工具型使用：作為工具，通過擷取任務所需資訊，生成預測結果（如蛋白質-配體結合親和力評分）。

通用語言模型：

領域：基于更廣泛的文本資料，如書籍、網際網路、社交媒體等。
訓練資料：包括書籍、問答網站、社交媒體、百科等來源。
人類式能力：具備了解背景知識、推理、角色扮演（如化學家）、規劃、使用工具和資訊檢索等能力。
助手型使用：可以像助手一樣與使用者互動，回答問題、解釋複雜概念并幫助使用者完成任務。

大語言模型在了解疾病機制中的作用

這張圖表分為兩部分，左邊展示了疾病研究的關鍵流程，右邊展示了大語言模型（LLM）在這些流程中的具體應用領域。

左側：疾病研究流程

臨床分型（Clinical Sub-typing）：

通過多組學資料的收集（如基因、蛋白質、代謝組等），結合臨床分析和倫理法規要求，對疾病進行分型。目的是更好地了解疾病的異質性，進而為後續的靶點發現打下基礎。

靶點-疾病關聯（Target-Disease Linkage）：

通過基因表達譜分析、多通路分析等方法，結合實驗工具（如CRISPR-Cas9、RNA幹擾等），尋找并驗證疾病與潛在治療靶點的關聯性。這一步對于藥物開發至關重要。

靶點驗證（Target Validation）：

驗證靶點的安全性與可行性，評估其藥物開發潛力。涉及靶點安全、藥物可及性（Drugability）和測試可行性。靶點的作用機制（如激動劑、拮抗劑、調節劑等）也會在這一階段進行确認，進而選擇合适的治療方式，如蛋白質、小分子或RNA治療。

右側：LLM的應用領域

基因組分析（Genomics Analysis）：

LLM可以幫助預測基因變異、啟動子區域、轉錄因子結合位點等資訊，進而幫助科研人員在基因組層面了解疾病機制。

轉錄組分析（Transcriptomics Analysis）：

LLM可以處理mRNA表達分析、基因網絡分析等複雜資料，輔助研究人員挖掘重要的轉錄組資訊，了解基因的調控模式和表達差異。

蛋白質靶點分析（Protein Target Analysis）：

LLM能夠預測蛋白質結構、功能注釋、蛋白質間互相作用以及配體結合位點等資訊，幫助科研人員選擇潛在的藥物靶點。

疾病通路分析（Disease Pathway Analysis）：

LLM在疾病通路分析中能夠分析蛋白質與疾病之間的複雜互相作用，識别潛在的治療靶點和幹預途徑，進而加速藥物開發過程。

輔助功能（Assistance）：

LLM還可以提供知識發現、資訊檢索等輔助功能，幫助科研人員快速擷取相關資訊，加快研究程序。

大語言模型在藥物發現中的作用

這張圖分為兩部分，左邊展示了藥物發現的過程，右邊展示了大語言模型（LLM）在藥物發現各階段的具體應用。

左側：藥物發現過程

藥物類型選擇：

科學家可以選擇不同的治療方式，包括蛋白質、小分子藥物和RNA。該圖以小分子藥物為例，展示了它們在藥物開發中的應用。

藥物發現流程：

命中識别（Hit Identification）：通過篩選大量化合物，找到與靶點有初步反應的分子。
命中到先導（Hit to Lead）：進一步優化這些初步命中分子，以提高其與靶點的結合能力。
先導優化（Lead Optimization）：對先導化合物進行結構改造，增強其療效和藥物特性。
臨床前研究（Pre-clinical）：在進入臨床試驗前，評估候選藥物的安全性和有效性。
藥物候選物（Drug Candidates）：通過上述流程，産生最終可供臨床試驗的候選藥物。

右側：LLM的應用領域

化學領域（Chemistry）：

LLM可以用于化學機器人自動化合成、逆合成規劃和反應預測等任務，幫助化學家加速化合物的發現。

計算機模拟（In Silico Simulation）：

LLM能夠進行分子生成、蛋白質生成和蛋白質-配體互相作用預測，進而加快虛拟藥物篩選過程。

ADMET預測：

LLM能夠預測候選藥物的藥代動力學（Pharmacokinetics）、毒性（Toxicity）和理化性質（Physicochemical Properties），幫助評估藥物在人體中的行為。

先導優化（Lead Optimization）：

LLM能夠通過優化分子結構和蛋白質互相作用，幫助改進候選化合物的療效和安全性。

輔助功能（Assistance）：

LLM還可以提供資訊檢索和知識解釋，幫助研究人員快速擷取所需資訊，提升藥物開發的效率。

大語言模型在臨床試驗中的作用

這張圖表左側展示了臨床試驗的不同階段，右側展示了大語言模型（LLM）在這些階段中的應用。

左側：臨床試驗階段

第一階段（Phase 1）：

主要測試藥物的安全性和最佳劑量水準。通常在15到50名健康志願者中進行。

第二階段（Phase 2）：

探索藥物的有效性以及可能的副作用，參與人數通常少于100人。

第三階段（Phase 3）：

将新治療與現有治療進行比較，驗證新藥物的效果，通常有超過100人參與。

第四階段（Phase 4）：

藥物獲批後，評估其長期效果，通常有超過1000名參與者。

右側：LLM的應用領域

臨床實踐（Clinical Practice）：

ICD編碼：幫助生成和優化疾病分類編碼。
病人-試驗比對：通過分析患者特征，自動比對合适的臨床試驗。
臨床試驗預測：預測臨床試驗的成功率和結果。
臨床試驗規劃：協助研究人員制定有效的臨床試驗計劃。

患者結果（Patient Results）：

患者結果預測：根據現有資料預測患者治療的效果。

輔助功能（Assistance）：

檔案撰寫：幫助生成臨床試驗相關檔案和報告。
資訊檢索：快速查找和整理與試驗相關的資訊。
知識解釋：對複雜的醫學或藥物資訊進行解釋，友善研究人員和醫生了解。

成熟度評估: 大語言模型

在藥物研發的應用

這張圖表展示了兩種類型的大語言模型的應用成熟度：科學大語言模型（Specialized LMs）和一般大語言模型（General LMs），分别在了解疾病機制、藥物發現和臨床試驗中的應用情況。應用成熟度分為四個等級：新生期、進展期、成熟期以及不适用（N/A):

不适用（Not Applicable）：

該類大語言模型（LLM）的應用不适合或與給定的下遊任務無關。在這種情況下，LLM的範式不被認為是有效或相關的工具。

新生期（Nascent）：

該類大語言模型的範式已被初步應用于任務，通常是在計算機模拟環境（in silico）中，但缺乏通過實際實驗驗證的支援。此階段的應用更多是理論上的或初步探索，尚未經過現實場景中的測試。

進展期（Advanced）：

該類大語言模型的應用已經超越了理論，經過了實際場景中的實驗驗證。這些實驗結果表明，LLM在現實中可以在特定的任務中起到一定的作用，但可能還未廣泛部署。

成熟期（Matured）：

該類大語言模型的應用已被內建到實際的工作環境中，如醫院或制藥公司，且有明确證據表明其在這些環境中的有效性和實用性。在這個階段，LLM已被廣泛使用，并産生了顯著的實際成果。

了解疾病機制（Understanding Diseases Mechanism）

基因組分析（Genomics Analysis）、轉錄組分析（Transcriptomics Analysis）、蛋白質靶點分析（Protein-target Analysis）、疾病通路分析（Disease-pathway Analysis）：

基因組分析（Genomics Analysis）、轉錄組分析（Transcriptomics Analysis）主要還處于早期
蛋白質靶點分析（Protein-target Analysis）、疾病通路分析（Disease-pathway Analysis）已經處于較為成熟的階段

藥物發現（Drug Discovery)

化學實驗（Chemistry Experiment）、計算機模拟（In-silico Simulation）、ADMET預測（ADMET Prediction）、先導優化（Lead Optimization）：

兩種模型在藥物發現的各個環節中的成熟度也大多為進展期。其中，計算機模拟和ADMET預測的進展較快，有潛力進一步推動藥物開發。

臨床試驗（Clinical Trial）

臨床試驗實踐（Clinical Trial Practice）、患者結果預測（Patient Outcome Prediction）

大語言模型在這些任務上都已經被實際應用。

未來方向

未來大語言模型（LLM）在藥物發現和開發中的應用方向集中在九個關鍵領域的改進上。首先，需要加強LLM對生物學知識的整合，包括對分子生成、臨床試驗資料以及科學術語的準确了解和操作。其次，需要解決倫理、隐私及模型誤用的問題，確定資料的安全性并防止潛在的濫用。此外，還需關注公平性和偏見問題，避免模型在不同群體中的不平等表現。

其他方面的改進包括解決LLM生成虛假資訊（即“幻覺”）的挑戰，提升多模态處理能力，擴充上下文視窗以應對海量生物資料，以及增強對時空資料的了解，特别是在分子

大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

左側：疾病研究流程

右側：LLM的應用領域

左側：藥物發現過程

右側：LLM的應用領域

左側：臨床試驗階段

右側：LLM的應用領域

了解疾病機制（Understanding Diseases Mechanism）

繼續閱讀

今年下半年，一旦開發商大幅降價賣房，或将帶來這4大嚴重後果！

《殺手》系列開發商成立發行部門首款發行作品為《MindsEye》

開發一片海，打造北方消費新坐标

《寂靜嶺2重制版》開發商Bloober Team願意繼續制作系列重制

終端AI分級标準落地，手機大模型“戰火”燒到了智能體

J Clin Invest丨楊偉莉/李世華/李曉江團隊利用猴模型揭示帕金森疾病新病理機制

大模型訓練遭投毒損失千萬美元？Anthropic發現LLM代碼庫暗藏bug

全市近千名青少年齊聚中海博，在航海、航空、建築三大模型競賽中一展身手

DeepMind聯合MIT開發Fluid，讓自回歸模型實作文生圖的大規模擴充

科學家開發拓撲程式設計DNA折紙系統，在單分子尺度實作圖形計算

第五屆1024資管科技開發者大會在臨港舉辦

第六代森林人混動諜照曝光與豐田/馬自達聯合開發性能更強

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

還有沒有必要開發内燃機長安智慧新藍鲸進化3.0

武城縣學習貫徹黨的二十屆三中全會精神宣講進基層走進武城經濟開發區

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務