天天看點

大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

文章連結: https://arxiv.org/abs/2409.04481

大語言模型因其展現出類人般的推理、工具使用和問題解決能力而備受矚目,此外,它在化學、生物學等專業領域也展現出深厚的了解能力,進一步提升了其應用價值。本文闡述大語言模型可以在了解疾病機制、藥物發現和臨床試驗三個藥物發現的基本階段展現出重要潛力。

大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

首先,本文展示了過去、現在的藥物研發與臨床試驗中的過程并展現了大語言模型(LLMs)未來在這些階段的潛在應用。

了解疾病機制:

  • 過去:依賴手動文獻和專利搜尋。
  • 現在:除了手動文獻搜尋,還加入了功能基因組學分析。
  • 未來:LLMs将自動識别靶基因,發現生化和藥理學原理。

藥物發現:

  • 過去:通過天然産物的發現和随機篩選進行藥物研發。
  • 現在:使用虛拟篩選和基于結構的手動藥物設計。
  • 未來:LLMs将設計新型治療方法,自動生成藥物設計,并自動進行實驗。

臨床試驗:

  • 過去和現在:手動比對病人與試驗、設計臨床試驗以及收集臨床試驗資料。
  • 未來:LLMs将自動進行病人比對、試驗設計,并預測試驗結果。

1

大語言模型的分類

大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

本文将大語言模型分為兩類: 科學大語言模型(Scientific Language Model)和一般大語言模型(General Language Model)。兩者的對比和差異如下:

科學大語言模型:

  • 領域:涉及化學(分子)、生物學(蛋白質、基因)等專門領域。
  • 訓練資料:包括化學中的SMILES、IUPAC序列,蛋白質的FASTA序列,基因的FASTA序列等。
  • 任務解決能力:能夠處理分子、蛋白質、基因相關的任務,如逆合成規劃、反應預測、分子設計、蛋白質結構預測、基因網絡分析等。
  • 工具型使用:作為工具,通過擷取任務所需資訊,生成預測結果(如蛋白質-配體結合親和力評分)。

通用語言模型:

  • 領域:基于更廣泛的文本資料,如書籍、網際網路、社交媒體等。
  • 訓練資料:包括書籍、問答網站、社交媒體、百科等來源。
  • 人類式能力:具備了解背景知識、推理、角色扮演(如化學家)、規劃、使用工具和資訊檢索等能力。
  • 助手型使用:可以像助手一樣與使用者互動,回答問題、解釋複雜概念并幫助使用者完成任務。

2

大語言模型在了解疾病機制中的作用

大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

這張圖表分為兩部分,左邊展示了疾病研究的關鍵流程,右邊展示了大語言模型(LLM)在這些流程中的具體應用領域。

左側:疾病研究流程

  1. 臨床分型(Clinical Sub-typing):
  • 通過多組學資料的收集(如基因、蛋白質、代謝組等),結合臨床分析和倫理法規要求,對疾病進行分型。目的是更好地了解疾病的異質性,進而為後續的靶點發現打下基礎。
  • 靶點-疾病關聯(Target-Disease Linkage):
    • 通過基因表達譜分析、多通路分析等方法,結合實驗工具(如CRISPR-Cas9、RNA幹擾等),尋找并驗證疾病與潛在治療靶點的關聯性。這一步對于藥物開發至關重要。
  • 靶點驗證(Target Validation):
    • 驗證靶點的安全性與可行性,評估其藥物開發潛力。涉及靶點安全、藥物可及性(Drugability)和測試可行性。靶點的作用機制(如激動劑、拮抗劑、調節劑等)也會在這一階段進行确認,進而選擇合适的治療方式,如蛋白質、小分子或RNA治療。

    右側:LLM的應用領域

    1. 基因組分析(Genomics Analysis):
    • LLM可以幫助預測基因變異、啟動子區域、轉錄因子結合位點等資訊,進而幫助科研人員在基因組層面了解疾病機制。
  • 轉錄組分析(Transcriptomics Analysis):
    • LLM可以處理mRNA表達分析、基因網絡分析等複雜資料,輔助研究人員挖掘重要的轉錄組資訊,了解基因的調控模式和表達差異。
  • 蛋白質靶點分析(Protein Target Analysis):
    • LLM能夠預測蛋白質結構、功能注釋、蛋白質間互相作用以及配體結合位點等資訊,幫助科研人員選擇潛在的藥物靶點。
  • 疾病通路分析(Disease Pathway Analysis):
    • LLM在疾病通路分析中能夠分析蛋白質與疾病之間的複雜互相作用,識别潛在的治療靶點和幹預途徑,進而加速藥物開發過程。
  • 輔助功能(Assistance):
    • LLM還可以提供知識發現、資訊檢索等輔助功能,幫助科研人員快速擷取相關資訊,加快研究程序。

    3

    大語言模型在藥物發現中的作用

    大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

    這張圖分為兩部分,左邊展示了藥物發現的過程,右邊展示了大語言模型(LLM)在藥物發現各階段的具體應用。

    左側:藥物發現過程

    1. 藥物類型選擇:
    • 科學家可以選擇不同的治療方式,包括蛋白質、小分子藥物和RNA。該圖以小分子藥物為例,展示了它們在藥物開發中的應用。
  • 藥物發現流程:
    • 命中識别(Hit Identification):通過篩選大量化合物,找到與靶點有初步反應的分子。
    • 命中到先導(Hit to Lead):進一步優化這些初步命中分子,以提高其與靶點的結合能力。
    • 先導優化(Lead Optimization):對先導化合物進行結構改造,增強其療效和藥物特性。
    • 臨床前研究(Pre-clinical):在進入臨床試驗前,評估候選藥物的安全性和有效性。
    • 藥物候選物(Drug Candidates):通過上述流程,産生最終可供臨床試驗的候選藥物。

    右側:LLM的應用領域

    1. 化學領域(Chemistry):
    • LLM可以用于化學機器人自動化合成、逆合成規劃和反應預測等任務,幫助化學家加速化合物的發現。
  • 計算機模拟(In Silico Simulation):
    • LLM能夠進行分子生成、蛋白質生成和蛋白質-配體互相作用預測,進而加快虛拟藥物篩選過程。
  • ADMET預測:
    • LLM能夠預測候選藥物的藥代動力學(Pharmacokinetics)、毒性(Toxicity)和理化性質(Physicochemical Properties),幫助評估藥物在人體中的行為。
  • 先導優化(Lead Optimization):
    • LLM能夠通過優化分子結構和蛋白質互相作用,幫助改進候選化合物的療效和安全性。
  • 輔助功能(Assistance):
    • LLM還可以提供資訊檢索和知識解釋,幫助研究人員快速擷取所需資訊,提升藥物開發的效率。

    4

    大語言模型在臨床試驗中的作用

    大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

    這張圖表左側展示了臨床試驗的不同階段,右側展示了大語言模型(LLM)在這些階段中的應用。

    左側:臨床試驗階段

    1. 第一階段(Phase 1):
    • 主要測試藥物的安全性和最佳劑量水準。通常在15到50名健康志願者中進行。
  • 第二階段(Phase 2):
    • 探索藥物的有效性以及可能的副作用,參與人數通常少于100人。
  • 第三階段(Phase 3):
    • 将新治療與現有治療進行比較,驗證新藥物的效果,通常有超過100人參與。
  • 第四階段(Phase 4):
    • 藥物獲批後,評估其長期效果,通常有超過1000名參與者。

    右側:LLM的應用領域

    1. 臨床實踐(Clinical Practice):
    • ICD編碼:幫助生成和優化疾病分類編碼。
    • 病人-試驗比對:通過分析患者特征,自動比對合适的臨床試驗。
    • 臨床試驗預測:預測臨床試驗的成功率和結果。
    • 臨床試驗規劃:協助研究人員制定有效的臨床試驗計劃。
  • 患者結果(Patient Results):
    • 患者結果預測:根據現有資料預測患者治療的效果。
  • 輔助功能(Assistance):
    • 檔案撰寫:幫助生成臨床試驗相關檔案和報告。
    • 資訊檢索:快速查找和整理與試驗相關的資訊。
    • 知識解釋:對複雜的醫學或藥物資訊進行解釋,友善研究人員和醫生了解。

    5

    成熟度評估: 大語言模型

    在藥物研發的應用

    大語言模型如何助力藥物開發? 哈佛 George Church Lab 最新綜述

    這張圖表展示了兩種類型的大語言模型的應用成熟度:科學大語言模型(Specialized LMs)和一般大語言模型(General LMs),分别在了解疾病機制、藥物發現和臨床試驗中的應用情況。應用成熟度分為四個等級:新生期、進展期、成熟期以及不适用(N/A):

    不适用(Not Applicable):

    • 該類大語言模型(LLM)的應用不适合或與給定的下遊任務無關。在這種情況下,LLM的範式不被認為是有效或相關的工具。

    新生期(Nascent):

    • 該類大語言模型的範式已被初步應用于任務,通常是在計算機模拟環境(in silico)中,但缺乏通過實際實驗驗證的支援。此階段的應用更多是理論上的或初步探索,尚未經過現實場景中的測試。

    進展期(Advanced):

    • 該類大語言模型的應用已經超越了理論,經過了實際場景中的實驗驗證。這些實驗結果表明,LLM在現實中可以在特定的任務中起到一定的作用,但可能還未廣泛部署。

    成熟期(Matured):

    • 該類大語言模型的應用已被內建到實際的工作環境中,如醫院或制藥公司,且有明确證據表明其在這些環境中的有效性和實用性。在這個階段,LLM已被廣泛使用,并産生了顯著的實際成果。

    了解疾病機制(Understanding Diseases Mechanism)

    • 基因組分析(Genomics Analysis)、轉錄組分析(Transcriptomics Analysis)、蛋白質靶點分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis):
      • 基因組分析(Genomics Analysis)、轉錄組分析(Transcriptomics Analysis)主要還處于早期
      • 蛋白質靶點分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis)已經處于較為成熟的階段

    藥物發現(Drug Discovery)

    • 化學實驗(Chemistry Experiment)、計算機模拟(In-silico Simulation)、ADMET預測(ADMET Prediction)、先導優化(Lead Optimization):
      • 兩種模型在藥物發現的各個環節中的成熟度也大多為進展期。其中,計算機模拟和ADMET預測的進展較快,有潛力進一步推動藥物開發。

    臨床試驗(Clinical Trial)

    • 臨床試驗實踐(Clinical Trial Practice)、患者結果預測(Patient Outcome Prediction)
      • 大語言模型在這些任務上都已經被實際應用。

    6

    未來方向

    未來大語言模型(LLM)在藥物發現和開發中的應用方向集中在九個關鍵領域的改進上。首先,需要加強LLM對生物學知識的整合,包括對分子生成、臨床試驗資料以及科學術語的準确了解和操作。其次,需要解決倫理、隐私及模型誤用的問題,確定資料的安全性并防止潛在的濫用。此外,還需關注公平性和偏見問題,避免模型在不同群體中的不平等表現。

    其他方面的改進包括解決LLM生成虛假資訊(即“幻覺”)的挑戰,提升多模态處理能力,擴充上下文視窗以應對海量生物資料,以及增強對時空資料的了解,特别是在分子

    繼續閱讀