天天看點

通義千問重磅開源Qwen2.5,性能超越Llama

9月19日雲栖大會,阿裡雲CTO周靖人釋出通義千問新一代開源模型Qwen2.5,旗艦模型Qwen2.5-72B性能超越Llama 405B,再登全球開源大模型王座。Qwen2.5全系列涵蓋多個尺寸的大語言模型、多模态模型、數學模型和代碼模型,每個尺寸都有基礎版本、指令跟随版本、量化版本,總計上架100多個模型,重新整理業界紀錄。

通義千問重磅開源Qwen2.5,性能超越Llama

Qwen2.5全系列模型都在18T tokens資料上進行預訓練,相比Qwen2,整體性能提升18%以上,擁有更多的知識、更強的程式設計和數學能力。Qwen2.5-72B模型在MMLU-rudex基準(考察通用知識)、MBPP 基準(考察代碼能力)和MATH基準(考察數學能力)的得分高達86.8、88.2、83.1。

Qwen2.5支援高達128K的上下文長度,可生成最多8K内容。模型擁有強大的多語言能力,支援中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 種以上語言。模型能夠絲滑響應多樣化的系統提示,實作角色扮演和聊天機器人等任務。在指令跟随、了解結構化資料(如表格)、生成結構化輸出(尤其是JSON)等方面Qwen2.5都進步明顯。

語言模型方面,Qwen2.5開源了7個尺寸,0.5B、1.5B、3B、7B、14B、32B、72B,它們在同等參數賽道都創造了業界最佳成績,型号設定充分考慮下遊場景的不同需求,3B是适配手機等端側裝置的黃金尺寸;32B是最受開發者期待的“成本效益之王”,可在性能和功耗之間獲得最佳平衡,Qwen2.5-32B的整體表現超越了Qwen2-72B。

通義千問重磅開源Qwen2.5,性能超越Llama

在MMLU-redux等十多個基準測評中,Qwen2.5-72B表現超越Llama3.1-405B

72B是Qwen2.5系列的旗艦模型,其指令跟随版本Qwen2.5-72B-Instruct在MMLU-redux、MATH、MBPP、LiveCodeBench、Arena-Hard、AlignBench、MT-Bench、MultiPL-E等權威測評中表現出色,在多個核心任務上,以不到1/5的參數超越了擁有4050億巨量參數的Llama3.1-405B,繼續穩居“全球最強開源大模型”的位置。

專項模型方面,用于程式設計的 Qwen2.5-Coder 和用于數學的 Qwen2.5-Math都比前代有了實質性進步。Qwen2.5-Coder 在多達5.5T tokens 的程式設計相關資料上作了訓練,當天開源1.5B和7B版本,未來還将開源32B版本;Qwen2.5-Math支援使用思維鍊和工具內建推理(TIR) 解決中英雙語的數學題,是迄今為止最先進的開源數學模型系列,本次開源了1.5B、7B、72B三個尺寸和一款數學獎勵模型Qwen2.5-Math-RM。

多模态模型方面,廣受期待的視覺語言模型Qwen2-VL-72B正式開源,Qwen2-VL能識别不同分辨率和長寬比的圖檔,了解20分鐘以上長視訊,具備自主操作手機和機器人的視覺智能體能力。日前權威測評LMSYS Chatbot Arena Leaderboard釋出最新一期的視覺模型性能測評結果,Qwen2-VL-72B成為全球得分最高的開源模型。

通義千問重磅開源Qwen2.5,性能超越Llama

Qwen2-VL-72B在權威測評LMSYS Chatbot Arena Leaderboard成為成為全球得分最高的開源視覺了解模型

自從2023年8月開源以來,通義在全球開源大模型領域後來居上,成為開發者尤其是中國開發者的首選模型。性能上,通義大模型日拱一卒,逐漸趕超美國最強開源模型Llama,多次登頂Hugging Face全球大模型榜單;生态上,通義從零起步、開疆拓土,與海内外的開源社群、生态夥伴、開發者共建生态網絡,截至2024年9月中旬,通義千問開源模型下載下傳量突破4000萬,Qwen系列衍生模型總數超過5萬個,成為僅次于Llama的世界級模型群。

通義千問重磅開源Qwen2.5,性能超越Llama

HuggingFace資料顯示,截至9月中旬Qwen系列原生模型和衍生模型總數超過5萬個

繼續閱讀