“我們很高興釋出一種在PubMed上訓練的新生物醫學模型,這是建構可支援生物醫學研究的基礎模型的第一步。”——CRFM主任Percy Liang
斯坦福基礎模型研究中心(CRFM)和MosaicML聯合開發了PubMed GPT模型,一種經訓練可以解釋生物醫學語言的大型語言模型。
目前的大型語言模型(LLM)通常使用于自然語言合成、圖像合成及語音合成等,而已知在特定行業的應用很少。本文所要介紹的PubMed GPT即展示了特定行業大型語言模型的能力,尤其在生物醫學領域。通過MosaicML雲平台,CRFM的開發者在PubMed的生物醫學資料集上訓練了一個生成式預訓練模型(GPT)。結果表明,特定領域的語言生成模型在實際應用中将會有很好的發展前景,同時,LLM也展現出更加優秀的性能和競争力。注意:目前此模型僅用于研究開發,不适合生産。
PubMed GPT
模型。PubMed GPT 2.7B基于HuggingFace GPT模型,具有2.7B的參數和1024個标記的最大上下文長度。盡可能簡單的設計展示了現有LLM訓練方法的強大功能。
資料。采用Pile資料集的部分——PubMed Abstracts和PubMed Central。
計算。開發者選擇在50B的令牌上多次訓練PubMed GPT,達到一個較長的計算周期(300B)。結果表明,在資料受限的情況下仍可訓練出優秀的LLM模型。
MosaicML雲平台
MosaicML雲。基于MosaicML雲軟體棧,開發者在具有128個NVIDIA A100-40GB GPU、節點間1600Gb/s網絡帶寬的叢集上訓練PubMed GPT,總訓練時長約6.25天。
Composer庫。由于MosaicML開源Composer庫的高效性和包容性,開發者使用Composer庫以及它的FSDP內建來訓練模型。
流資料集。為快速、靈活且廉價地管理自定義訓練資料集,開發者使用MosaicML的新StreamingDataset庫來管理100GB多文本的訓練資料集。
評估
開發者在幾個問答基準上對PubMed GPT進行了評估。例如下面的一個醫學問題摘要基準:
其對患者的疑問查詢(其中會包含歧義、拼寫錯誤等方面的資訊)進行處理,并以清晰正确的格式呈現給醫生。
同時開發者将結果與5個模型進行了比較(如上圖):DRAGON、GPT-Neo 2.7B、Galactica、BioLinkBERT、PubMedBERT。結果證明:
1、LLM非常全能,在特定領域中從頭訓練時其具有與專業設計的系統相當的性能;
2、針對特定領域資料的預訓練勝過通用資料;
3、專注模型可以用較少的資源獲得高品質結果。
總結
PubMed GPT的結果隻是生物醫學文本及其他領域研究的第一步,往後仍需要更多研究者來開發更加先進的成果。而且目前隻是概念驗證,最終的希望是在未來出現值得信賴的互動式AI系統,在與人類專家進行篩選的同時也促進可靠的互動。
參考資料
https://www.mosaicml.com/blog/introducing-pubmed-gpt