天天看點

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

作者:智東西
谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

作者 | ZeR0

編輯 | 漠影

智東西6月28日報道,昨晚,谷歌在I/O Connect大會上放大招,公布其新一代最強開源模型——Gemma 2。

Gemma 2有90億(9B)和270億(27B)兩種參數規模可用。27B模型訓練了13T tokens,9B是8T tokens,都擁有8192上下文視窗,可在Google AI Studio中使用。26億參數(2.6B)模型将很快釋出,小到可以在手機本地運作。

在盲測大語言模型競技場LMSYS Chatbot Arena中,270億參數的Gemma 2指令微調模型擊敗了擁有700億參數的Llama 3,并超過Nemotron 4 340B、Claude 3 Sonnet、Command R+、Qwen 72B等模型,在所有開源權重的模型中位列第一;9B模型則是目前15B以下參數的模型中成績最好的。

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

谷歌在今年早些時候推出輕量級先進開源模型Gemma,隻有2B和7B參數版本,下載下傳量超過1000萬次。Gemma 2涵蓋從20億到270億參數,比第一代性能更高、推理效率更高,并且顯著改進安全性。這是該系列模型邁出的一大步。

270億參數的Gemma 2提供了與兩倍以上參數的模型競争的替代方案,提供了直到去年12月才可能實作的性能,而且可以在單個英偉達A100/H100 Tensor Core GPU或TPU主機上以全精度高效運作推理,大大降低了部署成本。

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

在Hugging Face的基準上,谷歌将Gemma 2 27B與具有類似尺寸的Qwen1.5 32B進行了比較,還報告了Llama 3 70B的性能。Gemma 2 27B的尺寸隻有Llama 3 70B的40%,訓練資料少到Llama 3 70B的2/3。結果顯示,Gemma 2 27B優于Qwen1.5 32B,比Llama 3 70B低幾個百分點。

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

一、重新設計架構,Gemma 2有三大特點

Gemma 2的技術報告共15頁,介紹了其架構的多項技術改進,包括交替使用局部-全局注意力機制和分組查詢注意力,還使用知識蒸餾而不是下一個token預測來幫助訓練較小的2B和9B模型。

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

▲Gemma模型的參數量

2.6B模型在一個TPUv5e叢集的2x16x16配置上訓練,總共用了512張晶片。9B模型在TPUv4叢集的8x16x32配置上訓練,總共4096張晶片。27B模型在TPUv5p叢集的8x24x32配置上訓練,總共用了6144張晶片。

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

▲用切分訓練基礎設施

針對更高的性能和推理效率,谷歌在重新設計的架構上建構了Gemma 2。該模型采用與Gemma 1.1相似的算法配方,但用了更多的teacher監督并執行了模型合并。在程式設計、數學、推理、安全等能力上,Gemma 2都比1.1版本提升顯著。

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

▲主要模型參數及設計選擇的概述

結果,Gemma 2模型在其規模上提供了最佳性能,甚至提供了與大2-3倍的模型競争的替代方案。以下是其突出的特點:

(1)卓越性能:Gemma 2 27B在其同類大小中提供了最佳性能,甚至提供了與兩倍以上大小的模型競争的替代方案。Gemma 2 9B模型也提供了領先的性能,超過了Llama 3 8B和其他同類大小的開源模型。

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

谷歌在各種基準上比較2.6B、9B及27B模型,報告了可以與Llama 3進行比較的8個基準測試的平均性能,以及所有基準測試的平均性能。Llama 3 8B的資料來自HuggingFace leaderboard或其部落格。

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

在MMLU上,9B模型得分為71.3,27B模型為75.2;在AGIEval上,9B模型得分52.8,27B模型得分55.1;在HumanEval上,9B模型得分40.2,27B模型得分51.8。

(2)無與倫比的效率和成本節省:Gemma 2 27B模型設計用于在單個谷歌雲TPU主機、英偉達A100 80GB Tensor Core GPU或H100 Tensor Core GPU上高效運作全精度推理,在保持高性能的同時顯著降低成本。這使得AI部署更加易于通路和經濟實惠。

(3)跨硬體的快速推理:Gemma 2經過優化,可以在各種硬體上以令人難以置信的速度運作,硬體從功能強大的遊戲筆記本電腦和高端桌上型電腦到基于雲的設定。在Google AI Studio中以全精度試用Gemma 2,在CPU上使用Gemma.cpp的量化版本解鎖本地性能,或在家用計算機上通過Hugging Face Transformers在英偉達RTX或GeForce RTX上試用。

二、支援商業化,相容廣泛架構,友善部署

Gemma 2為開發者和研究人員建構,其設計更容易內建到工作流程中:

(1)開放且可通路:與原始Gemma模型一樣,Gemma 2也是根據谷歌具有商業友好的Gemma許可釋出的,允許開發人員和研究人員分享和商業化他們的創新。

(2)廣泛的架構相容性:Gemma 2相容主要的AI架構,如Hugging Face Transformers,以及通過原生Keras 3.0、vLLM、Gemma.cpp、Llama.cpp和Ollama的JAX、PyTorch和TensorFlow。此外,Gemma優化了英偉達TensorRT-LLM以在英偉達加速基礎設施上運作或作為英偉達NIM推理微服務運作。使用者可以使用Keras和Hugging Face進行微調。谷歌正在積極努力實作更多參數高效的微調選項。

(3)輕松部署:從下個月開始,谷歌雲客戶将能輕松在Vertex AI上部署和管理Gemma 2。

新的Gemma Cookbook是一個包含實用示例和指南的集合,引導使用者建構自己的應用程式并為特定任務微調Gemma 2模型。

三、提供負責任的AI開發資源,嚴格測試評估模型安全性

在負責任的AI開發方面,谷歌提供負責任地建構和部署AI所需的資源,包括負責任的生成式AI工具包。最近開源的LLM Comparator幫助開發者和研究人員深入評估語言模型。

即日起,使用者可使用配套的Python庫與自己的模型和資料進行比較評估,并在應用程式中可視化結果。此外,谷歌正在積極緻力于開源文本水印技術SynthID,用于Gemma模型。

在訓練Gemma 2時,谷歌遵循内部安全流程,過濾了訓練前的資料,并針對一套全面的名額進行了嚴格的測試和評估,以識别和減輕潛在的偏見和風險。谷歌在與安全性和代表性危害相關的大量公共基準上公布了其結果。

谷歌最強開源模型Gemma 2釋出!270億參數奇襲Llama 3

▲Gemma 2 IT模型和Gemma 1.1 IT模型的安全學術基準結果

結語:大模型研發趨于實用主義

谷歌Gemma 2的研究進展反映了目前大模型研究趨勢,即探索用更輕量級的、更實用的模型來實作更強的性能,并確定易部署,以更好地滿足不同的使用者需求。

谷歌為開發者和研究人員提供了使用這些模型的多種途徑。Gemma 2現可在Google AI Studio中使用,可在沒有硬體要求的情況下測試其270億參數的全部性能,也可以從Kaggle和Hugging Face Models下載下傳Gemma 2的模型權重,Vertex AI Model Garden即将推出。

通過Gemma 2,谷歌證明了蒸餾是訓練此類模型的有效方法,基于輸出機率的訓練能夠比純粹的下一個token預測産生更多的效果。模型仍存在局限性,需要未來研究來持續優化事實性、對抗性攻擊的魯棒性以及推理和一緻性。

為支援研究和開發,Gemma 2還可通過Kaggle免費獲得,或通過Colab筆記本的免費層獲得。首次使用谷歌雲服務的使用者可能有資格獲得300美元的積分。學術研究人員可以申請Gemma 2學術研究計劃,以獲得谷歌雲積分,加速對Gemma 2的研究。申請截止日期為8月9日。

來源:谷歌DeepMind

繼續閱讀