OpenAI近日发布了新模型CriticGPT，这是一个专门为捕捉GPT-4生成代码中的错误而训练的模型。

OpenAI发布CriticGPT：基于GPT-4自我改进，突破RLHF人类极限

CriticGPT相当于GPT-4的“拐杖”，用于提高模型输出的准确性。这个新模型的亮点是它通过自回归Transformer策略，利用问题-答案对作为输入，输出批评并提出建设性的评论。

CriticGPT的训练基于GPT-4，再用来评价GPT-4的生成结果。尽管这种“自我闭环”的方式引发了一些争议，但也有人认为这是模型自我提升的开始。

CriticGPT帮助人类监督AI执行困难任务，提高了代码审查的准确率。研究人员发现，在许多情况下，CriticGPT比人类专家更擅长发现错误，甚至能在被认为“完美无缺”的任务中找出问题。

OpenAI发布的技术文章中，Jan Leike的名字引人注目，他曾共同领导超级对齐团队，致力于开发InstructGPT、ChatGPT和GPT-4的对齐工作。

CriticGPT：专为挑错而生的模型

CriticGPT是由OpenAI研究团队基于GPT-4构建的模型，专门用于捕捉ChatGPT代码中的错误。

实验表明，有CriticGPT辅助，审查代码的准确率提高了60%。

该团队计划将CriticGPT整合到RLHF流程中，为训练师提供明确的AI支持。这对评估高级AI系统输出至关重要，没有这种工具，评级变得困难。

随着模型推理能力提升，ChatGPT的错误愈加难以察觉，给AI训练师带来挑战。这是RLHF的根本性限制，模型逐渐超越人类知识水平，使校准更加困难。

CriticGPT通过撰写批判性评论，指出ChatGPT回答中的不准确之处。尽管其建议不总是正确，但它帮助训练师发现更多问题，增强了训练师的技能，使批评更全面。

实验中，超过60%的训练师更倾向于选择人类与CriticGPT团队提供的批评，而非未经辅助的个人批评。

CriticGPT训练方法详解

CriticGPT基于GPT-4构建，专门用于识别ChatGPT代码中的错误。其训练方法包括人为注入错误、批评生成和人类评估。以下是具体训练步骤和技术细节。

CriticGPT的训练包括以下几个步骤：

1. 人类标注员人为注入微妙的bug。

2. 标注员写下详细批评意见。

3. 用这些数据训练CriticGPT。

4. 通过RLHF优化批评意见质量。

为进一步提高批评质量，OpenAI团队使用了一种创新的强制采样束搜索（FSBS）技术。这种方法确保模型生成的批评全面且减少“幻觉”和“鸡蛋里挑骨头”现象。FSBS通过强制模型生成多个不同的评论片段，再由奖励模型对这些片段进行评分，选择最佳评论组合。

在训练过程中，人类评估CriticGPT的批评意见，从全面性、捕捉错误的准确性、幻觉现象以及整体有用性等维度进行评分。标注员还不断验证自己插入的bug是否足够隐蔽，以迫使CriticGPT不断进化，发现更隐蔽的问题。这种类似于生成对抗网络（GAN）的训练思路，使CriticGPT的批评意见更加精准。

此外，OpenAI还进行了一系列消融实验，验证FSBS方法的有效性。他们发现FSBS能在生成更长、更全面的批评时，减少无中生有和挑剔现象的发生率。实验结果显示，采用FSBS技术，CriticGPT的表现显著优于只使用RL的方法。

CriticGPT评估成果

OpenAI新模型CriticGPT在检测ChatGPT输出中的错误方面表现出色。实验结果表明，CriticGPT在发现人为插入的bug时，成功率高达75%以上，而人类审核员只能找到25%。在评估自然出现的bug时，有63%的情况下，人类更倾向于选择CriticGPT的评论。

CriticGPT的评论被认为比ChatGPT的更全面，更少出现“幻觉”和无关紧要的挑剔。即使在非代码任务中，CriticGPT也能成功识别数百个被人类认为是“完美”的错误。

研究发现，人类评估者在没有LLM帮助下撰写的批评意见较短，缺乏所需领域知识，导致人类和模型之间的表现差异。CriticGPT的检测错误能力全面，对于人为篡改和原始输出中的错误，都达到了最高的全面性百分比。

然而，人类也最不容易产生幻觉或“鸡蛋里挑骨头”的问题。在产生幻觉方面，ChatGPT表现最差，CriticGPT稍有提升。

考虑到批评意见的全面性与减少幻觉之间的权衡，作者提出了“人机合作”模式的好处。人类与CriticGPT的团队表现能够超越模型或人类分别单独工作时的Pareto边界。可扩展监督的终极目标是帮助人类评估模型，训练出更好、更安全的策略。

在现实场景中，模型输出的错误可能分布在答案的很多部分。CriticGPT的工作重点是指出一处的重要错误，未来仍需探索如何识别分散在答案中的错误。

CriticGPT仍存在幻觉问题，且帮助有限。如果任务过于复杂，即使有模型协助，专家也可能无法做出良好的评估。但该方法为今后的RLHF训练带来新思路，通过RLHF训练CriticGPT，可以合成更多高质量的RLHF数据。

RLHF的上限

CriticGPT的推出标志着RLHF（人类反馈强化学习）的上限不再是人类。Jan Leike指出，RLHF是创造ChatGPT的核心技术，但其隐患在于人类能力的限制。当AI需要解决人类无能为力的任务时，人类无法给出相应反馈，导致AI无法改进。

CriticGPT的成功意味着用弱模型监督训练更强模型的可扩展监督有了希望。虽然目前CriticGPT尚未显著提高人类在艰难任务上的准确性，但随着更好的预训练模型出现，这一框架将不断改进。

如果你觉得这篇文章对你有所帮助，欢迎点赞、收藏以及转发分享。同时，请关注我，以获取更多关于人工智能的最新资讯和见解！

参考：

OpenAI发布CriticGPT：基于GPT-4自我改进，突破RLHF人类极限

CriticGPT：专为挑错而生的模型

CriticGPT训练方法详解

CriticGPT评估成果

RLHF的上限

继续阅读

动物交配前爱互相闻屁股，看似尴尬的礼节，其实比人类科技好用？

相对于男性，为何女性身材矮小、战斗力弱？科学揭秘人类进化之谜

华为 25 亿元转让问界商标给赛力斯；苹果或入 OpenAI 董事会；闲鱼上线「简历」功能，帮用户搞副业赚钱｜极客早知道

华为回应25亿元转让“问界”商标等；苹果或获得OpenAI董事会观察员职位；阿里云回应B站、小红书崩了 | 极客头条

消息指苹果将获OpenAI董事会观察员职位，与后者大股东享同样董事会地位

谁卡了OpenAI的脖子？｜钛媒体AGI

OpenAI又陷抄袭门？

中国人类级狗粮行业市场研究报告

Cell | 徐勇等揭示TRPC5参与调节人类的食欲、体重和产后抑郁等行为

人类社会在私有制中发展十七：私有制和人性自然规律

马斯克豪掷40亿购10万张H100训Grok 3！Grok 2下月上线，剑指OpenAI

《净化人类》第104章：送你一辆车

餐桌上的生存智慧：为什么人类更爱食草动物的肉？

人类眨个眼，机器人就把魔方复原了，“手”快到根本看不清……

OpenAI不Open：阻拦还是助攻？丨大象深度

10本已完结红楼同人类小说，钟鸣鼎食，起居八座，接着奏乐接着舞