昆侖萬維投稿

量子位 | 公衆号 QbitAI

Q*項目公開釋出，可讓小模型達到參數量比其大數十倍、甚至上百倍模型的推理能力。

自去年11月伴随着OpenAI内讧，其神秘Q*項目被爆出後，業内對OpenAI Q*的讨論和猜測就沒停過，而OpenAI這邊一直避而不談。

在當時，一些人就從名字猜測Q*可能與Q-Learning有關，例如Meta科學家田淵棟提出Q*可能是Q-learning和A*的結合：

而現在，一項名為Q*的項目突然公開釋出，而且真的和Q-Learning、A*有關。

不過，研究團隊并非OpenAI，更不是DeepMind（相傳，OpenAI的Q*項目前身是GPT-Zero，由Ilya Sutskever發起，名字緻敬了DeepMind的Alpha-Zero）。

而是來自國内昆侖萬維顔水成團隊與新加坡南洋理工大學的一項新工作。

團隊表示，希望Q*算法能夠打破OpenAI的封鎖，提升現有開源模型的推理能力。實驗中，Q*算法的表現也很給力：

在GSM8K資料集上，Q*幫助Llama-2-7b提升至80.8%的準确率，超越了ChatGPT；
在MATH資料集上，Q*幫助DeepSeek-Math-7b提升至55.4%的準确率，超越了Gemini Ultra；
在MBPP資料集上，Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準确率，縮小了與GPT-4的程式設計水準差距。

網友看到這項工作後一時間炸開了鍋，研究命名無疑成為了讨論的一大焦點，網友的評論卻很一緻：

這就是Q*。

雖然不是那個Q*，但卻是真正的Q*：

誰讓OpenAI至今不釋出任何名為Q*的工作：

抛開命名，從研究本身來講，有網友看過論文後感歎這項研究真不簡單：

越思考，就越覺得Q*的這個方法是正确的。

甚至有網友認為有種AGI的感覺：

那麼，Q*到底長啥樣？

複雜推理任務全盤規劃

最後利用A*搜尋算法對狀态進行最佳優先搜尋，實作了對複雜推理任務的全盤規劃，進而提升開源模型在推理任務上的性能。

随後，研究團隊通過一系列實驗，證明了Q*架構可以顯著提升LLM的推理能力。

如開頭所述，在GSM8K資料集上，Q*幫助Llama-2-7b提升至80.8%的準确率，超越了ChatGPT；在MATH資料集上，Q*幫助DeepSeek-Math-7b提升至55.4%的準确率，超越了Gemini Ultra; 在MBPP資料集上，Q*幫助CodeQwen1.5-7b-Chat提升至77.0%的準确率，縮小了與GPT-4的程式設計水準差距。

具體結果見下圖：

Q*能夠幫助參數量僅為7b的小模型達到參數量比其大數十倍甚至百倍模型的推理能力，大幅提升模型的性能，并顯著降低了計算資源的需求。

不過，昆侖萬維團隊也表示，Q*的研究尚在初級階段，算法在各個環節還有進一步的改進空間。

未來，會繼續深入此項研究，不斷提升國産開源模型推理能力，打破OpenAI閉源封鎖，為AI前沿技術發展帶來全新可能。

更多細節，感興趣的家人們可以檢視原論文～

論文連結：https://arxiv.org/abs/2406.14283

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

Q*項目公開釋出！研究團隊并非OpenAI

複雜推理任務全盤規劃

繼續閱讀

2024稀土開發者大會精彩亮點｜代碼不止掘金不停

等不來OpenAI的Q*,華為諾亞探索LLM推理的秘密武器MindStar先來了

郭帆申請“流浪地球短篇集”商标，《流浪地球》持續開發從未間斷

一聲唏噓！溧水“扛把子”商辦遭法拍！開發商遭法院強執超9500萬

開發商的入戶門要不要換掉？聽老師傅說完，懊悔沒早點知道

Vision Pro将支援蘋果AI和AirPods；觸覺技術開發商Ultraleap裁員

青春不散場歌行緻遠方——淄川經濟開發區實驗學校舉辦2020級初四畢業典禮

Java Chassis 3技術解密，流式響應如何簡化AI應用開發

買的精裝房終于傳遞鑰匙了，一看傻掉！這就是開發商說的精裝房？

銀河通用機器人完成7億融資、AI晶片公司Etched融資1.2億美元、OpenAI 收購Multi｜每周AI世界觀

OpenAI開發大模型内容糾錯工具丨知乎推出AI搜尋産品「知乎直答」

【文明鄉風、良好家風、淳樸民風】新村銀杏産業開發區：傳承好家規家訓最美獎牌送上門

JavaWeb開發基礎7個Web術語解析

OpenAI釋出CriticGPT：基于GPT-4自我改進，突破RLHF人類極限

印尼羽協召開釋出會：張志傑送醫時已無心跳，呼籲停止傳播視訊

開發者棄TypeScript投Rust，重寫系統後痛批：這門語言爛透了！