天天看點

Q*項目公開釋出!研究團隊并非OpenAI

作者:量子位

昆侖萬維 投稿

量子位 | 公衆号 QbitAI

Q*項目公開釋出,可讓小模型達到參數量比其大數十倍、甚至上百倍模型的推理能力。

Q*項目公開釋出!研究團隊并非OpenAI

自去年11月伴随着OpenAI内讧,其神秘Q*項目被爆出後,業内對OpenAI Q*的讨論和猜測就沒停過,而OpenAI這邊一直避而不談。

在當時,一些人就從名字猜測Q*可能與Q-Learning有關,例如Meta科學家田淵棟提出Q*可能是Q-learning和A*的結合:

Q*項目公開釋出!研究團隊并非OpenAI

而現在,一項名為Q*的項目突然公開釋出,而且真的和Q-Learning、A*有關。

Q*項目公開釋出!研究團隊并非OpenAI

不過,研究團隊并非OpenAI,更不是DeepMind(相傳,OpenAI的Q*項目前身是GPT-Zero,由Ilya Sutskever發起,名字緻敬了DeepMind的Alpha-Zero)。

而是來自國内昆侖萬維顔水成團隊與新加坡南洋理工大學的一項新工作。

團隊表示,希望Q*算法能夠打破OpenAI的封鎖,提升現有開源模型的推理能力。實驗中,Q*算法的表現也很給力:

  • 在GSM8K資料集上,Q*幫助Llama-2-7b提升至80.8%的準确率,超越了ChatGPT;
  • 在MATH資料集上,Q*幫助DeepSeek-Math-7b提升至55.4%的準确率,超越了Gemini Ultra;
  • 在MBPP資料集上,Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準确率,縮小了與GPT-4的程式設計水準差距。

網友看到這項工作後一時間炸開了鍋,研究命名無疑成為了讨論的一大焦點,網友的評論卻很一緻:

這就是Q*。
Q*項目公開釋出!研究團隊并非OpenAI

雖然不是那個Q*,但卻是真正的Q*:

Q*項目公開釋出!研究團隊并非OpenAI

誰讓OpenAI至今不釋出任何名為Q*的工作:

Q*項目公開釋出!研究團隊并非OpenAI

抛開命名,從研究本身來講,有網友看過論文後感歎這項研究真不簡單:

越思考,就越覺得Q*的這個方法是正确的。
Q*項目公開釋出!研究團隊并非OpenAI

甚至有網友認為有種AGI的感覺:

Q*項目公開釋出!研究團隊并非OpenAI

那麼,Q*到底長啥樣?

複雜推理任務全盤規劃

Q*項目公開釋出!研究團隊并非OpenAI

最後利用A*搜尋算法對狀态進行最佳優先搜尋,實作了對複雜推理任務的全盤規劃,進而提升開源模型在推理任務上的性能。

Q*項目公開釋出!研究團隊并非OpenAI
Q*項目公開釋出!研究團隊并非OpenAI
Q*項目公開釋出!研究團隊并非OpenAI
Q*項目公開釋出!研究團隊并非OpenAI
Q*項目公開釋出!研究團隊并非OpenAI

随後,研究團隊通過一系列實驗,證明了Q*架構可以顯著提升LLM的推理能力。

如開頭所述,在GSM8K資料集上,Q*幫助Llama-2-7b提升至80.8%的準确率,超越了ChatGPT;在MATH資料集上,Q*幫助DeepSeek-Math-7b提升至55.4%的準确率,超越了Gemini Ultra; 在MBPP資料集上,Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準确率,縮小了與GPT-4的程式設計水準差距。

具體結果見下圖:

Q*項目公開釋出!研究團隊并非OpenAI
Q*項目公開釋出!研究團隊并非OpenAI
Q*項目公開釋出!研究團隊并非OpenAI

Q*能夠幫助參數量僅為7b的小模型達到參數量比其大數十倍甚至百倍模型的推理能力,大幅提升模型的性能,并顯著降低了計算資源的需求。

不過,昆侖萬維團隊也表示,Q*的研究尚在初級階段,算法在各個環節還有進一步的改進空間。

未來,會繼續深入此項研究,不斷提升國産開源模型推理能力,打破OpenAI閉源封鎖,為AI前沿技術發展帶來全新可能。

更多細節,感興趣的家人們可以檢視原論文~

論文連結:https://arxiv.org/abs/2406.14283

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀