浙大、騰訊團隊釋出科學LLM大規模評測基準，國産大模型表現亮眼

編輯 | ScienceAI

随着大型語言模型（LLMs）在科學研究領域的廣泛應用，評估這些模型在了解和應用科學知識方面的能力變得尤為重要，但是科學領域全面評估 LLMs 科學知識的進階基準非常缺乏。

近日，來自浙江大學 NLP 實驗室與騰訊 AI Lab 的研究者建構了 SciKnowEval 評測基準，定義了 L1 到 L5 不同層級的科學智能，共包含化學和生物領域 50,000 個不同層次的科學評測題目，并利用該資料集用于對 20 個開源和閉源 LLMs 進行基準測試。

其中，擁有千億至萬億參數的通用大語言模型如 GPT-4o、Gemini1.5-Pro 和 Claude3-Sonnet 表現出色，整體性能大幅優于中小型開源模型，如 Qwen1.5 和 Llama3 等。

相關研究以《SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models》為題，釋出在預印平台 arXiv 上。

論文連結：https://arxiv.org/abs/2406.09098

一般來說，同一系列的模型的大小與其性能成正相關，例如，Galactica-30B 的表現就明顯優于 Galactica-6.7B。

作者還評測了一系列科學專業領域大模型，如上海交通大學、蘇州實驗室和思必馳聯合研發的 ChemDFM-13B，以及上海人工智能實驗室開發的 ChemLLM 系列等。

此類領域大模型大都在開源模型基礎上，利用科學領域語料進一步預訓練，并進行經過精巧設計的微調所得。

在專業領域知識測試中，此類領域大模型整體表現優秀，特别是百億參數的ChemDFM-13B，不僅全面領先其他開源模型，其化學水準也整體逼近 GPT-4o、Gemini1.5-Pro 等千億甚至萬億參數的通用大模型，顯示出垂域科學大模型的優勢。

表 1：化學領域中 LLMs 五個級别的零樣本表現

從評測結果還可以發現，L1-L4 的性能與 L5 的性能排名有時相差較大。在化學領域最進階的 L5 級任務中，ChemDFM-13B 甚至全面超越了通用大模型。

為了探究這個現象出現的原因，進一步觀察各個次元任務的組成情況，可以發現 L1-L4 任務大都是論文新建構的以選擇題出現的新任務；而 L5 中的分子描述生成和分子生成兩個任務是較為典型的化學人工智能模型任務。

由此可以認為，對于這些模型來說，L5 評測的是在已訓練任務上的能力，而 L1-L4 則更多的評測 LLM 的通用能力（指令遵循和任務泛化的能力等）。

總而言之，基座大模型的 SFT 不一定能提升模型的性能，SFT 任務的選擇和處理至關重要。

SFT 過程中的任務選擇、組合和處理對大語言模型在科學領域的專業化起到了舉足輕重的影響；而在構造 SFT 資料集的過程中，應該不僅僅考慮對科學領域相關能力的增強，也應盡量維持甚至提高模型的通用語言能力；進而確定模型擁有足夠的指令遵循和任務泛化能力，在更廣泛的科學任務上取得更優異的表現。

附：

在 SciKnowEval 架構中，研究者通過五個遞進的科學知識層次來評估 LLMs 的科學知識，包括廣泛學習、認真探詢、深入思考、準确判斷和實際應用。每個層次都旨在評估 LLMs 在不同方面的科學知識和應用能力。

圖 1：SciKnowEval 架構設計思路

L1: 廣泛學習（即知識覆寫）。主要評估大型語言模型對不同科學領域知識的廣泛掌握，主要考查模型的記憶和了解多種科學概念的能力。

L2: 認真探究（即知識探詢和探索）。關注大型語言模型在科學環境中進行深入探究和探索的能力，包括分析科學文獻、識别核心概念及提出相關問題。

L3: 深入思考（即知識反思和推理）。評估模型在批判性思維、邏輯推理、進行數值計算、預測功能以及通過反思性推了解決問題的能力。

L4: 準确判斷（即知識辨識和安全評估）。涉及大型語言模型基于科學知識做出正确、安全及符合道德的決策能力，包括對資訊的危害性和毒性進行評估，以及了解科學活動相關的倫理和安全問題。

L5: 實際應用（即知識實踐和應用）。評價大型語言模型将科學知識有效應用于現實世界情境的能力，如解決複雜的科學問題和開發創新解決方案。。

表 2：在化學領域 L1-L5 的評測任務

表 3：生物學和化學領域中 LLMs 五個級别的零樣本表現

*數值較小表示排名較高。表中粗體字标示的是所有模型中的最佳表現，帶下劃線的是次優表現，藍色标示的是開源模型中的最佳表現

繼續閱讀