文章連結: https://arxiv.org/abs/2409.04481
大語言模型因其展現出類人般的推理、工具使用和問題解決能力而備受矚目,此外,它在化學、生物學等專業領域也展現出深厚的了解能力,進一步提升了其應用價值。本文闡述大語言模型可以在了解疾病機制、藥物發現和臨床試驗三個藥物發現的基本階段展現出重要潛力。
首先,本文展示了過去、現在的藥物研發與臨床試驗中的過程并展現了大語言模型(LLMs)未來在這些階段的潛在應用。
了解疾病機制:
- 過去:依賴手動文獻和專利搜尋。
- 現在:除了手動文獻搜尋,還加入了功能基因組學分析。
- 未來:LLMs将自動識别靶基因,發現生化和藥理學原理。
藥物發現:
- 過去:通過天然産物的發現和随機篩選進行藥物研發。
- 現在:使用虛拟篩選和基于結構的手動藥物設計。
- 未來:LLMs将設計新型治療方法,自動生成藥物設計,并自動進行實驗。
臨床試驗:
- 過去和現在:手動比對病人與試驗、設計臨床試驗以及收集臨床試驗資料。
- 未來:LLMs将自動進行病人比對、試驗設計,并預測試驗結果。
1
大語言模型的分類
本文将大語言模型分為兩類: 科學大語言模型(Scientific Language Model)和一般大語言模型(General Language Model)。兩者的對比和差異如下:
科學大語言模型:
- 領域:涉及化學(分子)、生物學(蛋白質、基因)等專門領域。
- 訓練資料:包括化學中的SMILES、IUPAC序列,蛋白質的FASTA序列,基因的FASTA序列等。
- 任務解決能力:能夠處理分子、蛋白質、基因相關的任務,如逆合成規劃、反應預測、分子設計、蛋白質結構預測、基因網絡分析等。
- 工具型使用:作為工具,通過擷取任務所需資訊,生成預測結果(如蛋白質-配體結合親和力評分)。
通用語言模型:
- 領域:基于更廣泛的文本資料,如書籍、網際網路、社交媒體等。
- 訓練資料:包括書籍、問答網站、社交媒體、百科等來源。
- 人類式能力:具備了解背景知識、推理、角色扮演(如化學家)、規劃、使用工具和資訊檢索等能力。
- 助手型使用:可以像助手一樣與使用者互動,回答問題、解釋複雜概念并幫助使用者完成任務。
2
大語言模型在了解疾病機制中的作用
這張圖表分為兩部分,左邊展示了疾病研究的關鍵流程,右邊展示了大語言模型(LLM)在這些流程中的具體應用領域。
左側:疾病研究流程
- 臨床分型(Clinical Sub-typing):
- 通過多組學資料的收集(如基因、蛋白質、代謝組等),結合臨床分析和倫理法規要求,對疾病進行分型。目的是更好地了解疾病的異質性,進而為後續的靶點發現打下基礎。
- 通過基因表達譜分析、多通路分析等方法,結合實驗工具(如CRISPR-Cas9、RNA幹擾等),尋找并驗證疾病與潛在治療靶點的關聯性。這一步對于藥物開發至關重要。
- 驗證靶點的安全性與可行性,評估其藥物開發潛力。涉及靶點安全、藥物可及性(Drugability)和測試可行性。靶點的作用機制(如激動劑、拮抗劑、調節劑等)也會在這一階段進行确認,進而選擇合适的治療方式,如蛋白質、小分子或RNA治療。
右側:LLM的應用領域
- 基因組分析(Genomics Analysis):
- LLM可以幫助預測基因變異、啟動子區域、轉錄因子結合位點等資訊,進而幫助科研人員在基因組層面了解疾病機制。
- LLM可以處理mRNA表達分析、基因網絡分析等複雜資料,輔助研究人員挖掘重要的轉錄組資訊,了解基因的調控模式和表達差異。
- LLM能夠預測蛋白質結構、功能注釋、蛋白質間互相作用以及配體結合位點等資訊,幫助科研人員選擇潛在的藥物靶點。
- LLM在疾病通路分析中能夠分析蛋白質與疾病之間的複雜互相作用,識别潛在的治療靶點和幹預途徑,進而加速藥物開發過程。
- LLM還可以提供知識發現、資訊檢索等輔助功能,幫助科研人員快速擷取相關資訊,加快研究程序。
3
大語言模型在藥物發現中的作用
這張圖分為兩部分,左邊展示了藥物發現的過程,右邊展示了大語言模型(LLM)在藥物發現各階段的具體應用。
左側:藥物發現過程
- 藥物類型選擇:
- 科學家可以選擇不同的治療方式,包括蛋白質、小分子藥物和RNA。該圖以小分子藥物為例,展示了它們在藥物開發中的應用。
- 命中識别(Hit Identification):通過篩選大量化合物,找到與靶點有初步反應的分子。
- 命中到先導(Hit to Lead):進一步優化這些初步命中分子,以提高其與靶點的結合能力。
- 先導優化(Lead Optimization):對先導化合物進行結構改造,增強其療效和藥物特性。
- 臨床前研究(Pre-clinical):在進入臨床試驗前,評估候選藥物的安全性和有效性。
- 藥物候選物(Drug Candidates):通過上述流程,産生最終可供臨床試驗的候選藥物。
右側:LLM的應用領域
- 化學領域(Chemistry):
- LLM可以用于化學機器人自動化合成、逆合成規劃和反應預測等任務,幫助化學家加速化合物的發現。
- LLM能夠進行分子生成、蛋白質生成和蛋白質-配體互相作用預測,進而加快虛拟藥物篩選過程。
- LLM能夠預測候選藥物的藥代動力學(Pharmacokinetics)、毒性(Toxicity)和理化性質(Physicochemical Properties),幫助評估藥物在人體中的行為。
- LLM能夠通過優化分子結構和蛋白質互相作用,幫助改進候選化合物的療效和安全性。
- LLM還可以提供資訊檢索和知識解釋,幫助研究人員快速擷取所需資訊,提升藥物開發的效率。
4
大語言模型在臨床試驗中的作用
這張圖表左側展示了臨床試驗的不同階段,右側展示了大語言模型(LLM)在這些階段中的應用。
左側:臨床試驗階段
- 第一階段(Phase 1):
- 主要測試藥物的安全性和最佳劑量水準。通常在15到50名健康志願者中進行。
- 探索藥物的有效性以及可能的副作用,參與人數通常少于100人。
- 将新治療與現有治療進行比較,驗證新藥物的效果,通常有超過100人參與。
- 藥物獲批後,評估其長期效果,通常有超過1000名參與者。
右側:LLM的應用領域
- 臨床實踐(Clinical Practice):
- ICD編碼:幫助生成和優化疾病分類編碼。
- 病人-試驗比對:通過分析患者特征,自動比對合适的臨床試驗。
- 臨床試驗預測:預測臨床試驗的成功率和結果。
- 臨床試驗規劃:協助研究人員制定有效的臨床試驗計劃。
- 患者結果預測:根據現有資料預測患者治療的效果。
- 檔案撰寫:幫助生成臨床試驗相關檔案和報告。
- 資訊檢索:快速查找和整理與試驗相關的資訊。
- 知識解釋:對複雜的醫學或藥物資訊進行解釋,友善研究人員和醫生了解。
5
成熟度評估: 大語言模型
在藥物研發的應用
這張圖表展示了兩種類型的大語言模型的應用成熟度:科學大語言模型(Specialized LMs)和一般大語言模型(General LMs),分别在了解疾病機制、藥物發現和臨床試驗中的應用情況。應用成熟度分為四個等級:新生期、進展期、成熟期以及不适用(N/A):
不适用(Not Applicable):
- 該類大語言模型(LLM)的應用不适合或與給定的下遊任務無關。在這種情況下,LLM的範式不被認為是有效或相關的工具。
新生期(Nascent):
- 該類大語言模型的範式已被初步應用于任務,通常是在計算機模拟環境(in silico)中,但缺乏通過實際實驗驗證的支援。此階段的應用更多是理論上的或初步探索,尚未經過現實場景中的測試。
進展期(Advanced):
- 該類大語言模型的應用已經超越了理論,經過了實際場景中的實驗驗證。這些實驗結果表明,LLM在現實中可以在特定的任務中起到一定的作用,但可能還未廣泛部署。
成熟期(Matured):
- 該類大語言模型的應用已被內建到實際的工作環境中,如醫院或制藥公司,且有明确證據表明其在這些環境中的有效性和實用性。在這個階段,LLM已被廣泛使用,并産生了顯著的實際成果。
了解疾病機制(Understanding Diseases Mechanism)
- 基因組分析(Genomics Analysis)、轉錄組分析(Transcriptomics Analysis)、蛋白質靶點分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis):
- 基因組分析(Genomics Analysis)、轉錄組分析(Transcriptomics Analysis)主要還處于早期
- 蛋白質靶點分析(Protein-target Analysis)、疾病通路分析(Disease-pathway Analysis)已經處于較為成熟的階段
藥物發現(Drug Discovery)
- 化學實驗(Chemistry Experiment)、計算機模拟(In-silico Simulation)、ADMET預測(ADMET Prediction)、先導優化(Lead Optimization):
- 兩種模型在藥物發現的各個環節中的成熟度也大多為進展期。其中,計算機模拟和ADMET預測的進展較快,有潛力進一步推動藥物開發。
臨床試驗(Clinical Trial)
- 臨床試驗實踐(Clinical Trial Practice)、患者結果預測(Patient Outcome Prediction)
- 大語言模型在這些任務上都已經被實際應用。
6
未來方向
未來大語言模型(LLM)在藥物發現和開發中的應用方向集中在九個關鍵領域的改進上。首先,需要加強LLM對生物學知識的整合,包括對分子生成、臨床試驗資料以及科學術語的準确了解和操作。其次,需要解決倫理、隐私及模型誤用的問題,確定資料的安全性并防止潛在的濫用。此外,還需關注公平性和偏見問題,避免模型在不同群體中的不平等表現。
其他方面的改進包括解決LLM生成虛假資訊(即“幻覺”)的挑戰,提升多模态處理能力,擴充上下文視窗以應對海量生物資料,以及增強對時空資料的了解,特别是在分子