昆仑万维投稿

量子位 | 公众号 QbitAI

Q*项目公开发布，可让小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力。

自去年11月伴随着OpenAI内讧，其神秘Q*项目被爆出后，业内对OpenAI Q*的讨论和猜测就没停过，而OpenAI这边一直避而不谈。

在当时，一些人就从名字猜测Q*可能与Q-Learning有关，例如Meta科学家田渊栋提出Q*可能是Q-learning和A*的结合：

而现在，一项名为Q*的项目突然公开发布，而且真的和Q-Learning、A*有关。

不过，研究团队并非OpenAI，更不是DeepMind（相传，OpenAI的Q*项目前身是GPT-Zero，由Ilya Sutskever发起，名字致敬了DeepMind的Alpha-Zero）。

而是来自国内昆仑万维颜水成团队与新加坡南洋理工大学的一项新工作。

团队表示，希望Q*算法能够打破OpenAI的封锁，提升现有开源模型的推理能力。实验中，Q*算法的表现也很给力：

在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；
在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra；
在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率，缩小了与GPT-4的编程水平差距。

网友看到这项工作后一时间炸开了锅，研究命名无疑成为了讨论的一大焦点，网友的评论却很一致：

这就是Q*。

虽然不是那个Q*，但却是真正的Q*：

谁让OpenAI至今不发布任何名为Q*的工作：

抛开命名，从研究本身来讲，有网友看过论文后感叹这项研究真不简单：

越思考，就越觉得Q*的这个方法是正确的。

甚至有网友认为有种AGI的感觉：

那么，Q*到底长啥样？

复杂推理任务全盘规划

最后利用A*搜索算法对状态进行最佳优先搜索，实现了对复杂推理任务的全盘规划，从而提升开源模型在推理任务上的性能。

随后，研究团队通过一系列实验，证实了Q*框架可以显著提升LLM的推理能力。

如开头所述，在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra; 在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率，缩小了与GPT-4的编程水平差距。

具体结果见下图：

Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力，大幅提升模型的性能，并显著降低了计算资源的需求。

不过，昆仑万维团队也表示，Q*的研究尚在初级阶段，算法在各个环节还有进一步的改进空间。

未来，会继续深入此项研究，不断提升国产开源模型推理能力，打破OpenAI闭源封锁，为AI前沿技术发展带来全新可能。

更多细节，感兴趣的家人们可以查看原论文～

论文链接：https://arxiv.org/abs/2406.14283

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

Q*项目公开发布！研究团队并非OpenAI

复杂推理任务全盘规划

继续阅读

上汽大众：5款全新车确认！3款插混+2款纯电，中国本土开发

《弋江区白马山凤凰山灰山生态修复与综合开发建设项目》评审完成

GPT-4批评GPT-4实现自我提升！OpenAI前超级对齐团队又一力作公开

联合开发Advanced Digitized Platform智能数字平台

OpenAI终止对中国提供API服务，“减肥神药”国内获批，嘀嗒出行上市首日跌超22%|科技一周

字节发布AI集成开发工具：MarsCode

Nvidia、微软和OpenAI正受到司法部和联邦贸易委员会的审查

大快人心！中美大模型竞争进入白热化，OpenAI“禁令邮件”遭打脸

OpenAI和微软被起诉！

《星鸣特攻》开发商表示内购只有装饰不影响平衡性

OpenAI 再革程序员的命，GPT 给自己改 Bug！

大麦牵手“厘里” 将共同开发虚拟音乐市场

开发孩子的智力潜能；就让娃爬，当娃出现这些信号，要让宝宝趴了

OpenAI关停中国服务引发热议，周鸿祎发声，国内大模型已达GPT4

2024年06月29日，AI战火熊熊 OpenAI微软谷歌字节科大讯飞激战正酣

小米已开发出底盘氛围灯