天天看点

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

作者:Cedric聊AI

OpenAI近日发布了新模型CriticGPT,这是一个专门为捕捉GPT-4生成代码中的错误而训练的模型。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

CriticGPT相当于GPT-4的“拐杖”,用于提高模型输出的准确性。这个新模型的亮点是它通过自回归Transformer策略,利用问题-答案对作为输入,输出批评并提出建设性的评论。

CriticGPT的训练基于GPT-4,再用来评价GPT-4的生成结果。尽管这种“自我闭环”的方式引发了一些争议,但也有人认为这是模型自我提升的开始。

CriticGPT帮助人类监督AI执行困难任务,提高了代码审查的准确率。研究人员发现,在许多情况下,CriticGPT比人类专家更擅长发现错误,甚至能在被认为“完美无缺”的任务中找出问题。

OpenAI发布的技术文章中,Jan Leike的名字引人注目,他曾共同领导超级对齐团队,致力于开发InstructGPT、ChatGPT和GPT-4的对齐工作。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

CriticGPT:专为挑错而生的模型

CriticGPT是由OpenAI研究团队基于GPT-4构建的模型,专门用于捕捉ChatGPT代码中的错误。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

实验表明,有CriticGPT辅助,审查代码的准确率提高了60%。

该团队计划将CriticGPT整合到RLHF流程中,为训练师提供明确的AI支持。这对评估高级AI系统输出至关重要,没有这种工具,评级变得困难。

随着模型推理能力提升,ChatGPT的错误愈加难以察觉,给AI训练师带来挑战。这是RLHF的根本性限制,模型逐渐超越人类知识水平,使校准更加困难。

CriticGPT通过撰写批判性评论,指出ChatGPT回答中的不准确之处。尽管其建议不总是正确,但它帮助训练师发现更多问题,增强了训练师的技能,使批评更全面。

实验中,超过60%的训练师更倾向于选择人类与CriticGPT团队提供的批评,而非未经辅助的个人批评。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

CriticGPT训练方法详解

CriticGPT基于GPT-4构建,专门用于识别ChatGPT代码中的错误。其训练方法包括人为注入错误、批评生成和人类评估。以下是具体训练步骤和技术细节。

CriticGPT的训练包括以下几个步骤:

1. 人类标注员人为注入微妙的bug。

2. 标注员写下详细批评意见。

3. 用这些数据训练CriticGPT。

4. 通过RLHF优化批评意见质量。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

为进一步提高批评质量,OpenAI团队使用了一种创新的强制采样束搜索(FSBS)技术。这种方法确保模型生成的批评全面且减少“幻觉”和“鸡蛋里挑骨头”现象。FSBS通过强制模型生成多个不同的评论片段,再由奖励模型对这些片段进行评分,选择最佳评论组合。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

在训练过程中,人类评估CriticGPT的批评意见,从全面性、捕捉错误的准确性、幻觉现象以及整体有用性等维度进行评分。标注员还不断验证自己插入的bug是否足够隐蔽,以迫使CriticGPT不断进化,发现更隐蔽的问题。这种类似于生成对抗网络(GAN)的训练思路,使CriticGPT的批评意见更加精准。

此外,OpenAI还进行了一系列消融实验,验证FSBS方法的有效性。他们发现FSBS能在生成更长、更全面的批评时,减少无中生有和挑剔现象的发生率。实验结果显示,采用FSBS技术,CriticGPT的表现显著优于只使用RL的方法。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

CriticGPT评估成果

OpenAI新模型CriticGPT在检测ChatGPT输出中的错误方面表现出色。实验结果表明,CriticGPT在发现人为插入的bug时,成功率高达75%以上,而人类审核员只能找到25%。在评估自然出现的bug时,有63%的情况下,人类更倾向于选择CriticGPT的评论。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

CriticGPT的评论被认为比ChatGPT的更全面,更少出现“幻觉”和无关紧要的挑剔。即使在非代码任务中,CriticGPT也能成功识别数百个被人类认为是“完美”的错误。

研究发现,人类评估者在没有LLM帮助下撰写的批评意见较短,缺乏所需领域知识,导致人类和模型之间的表现差异。CriticGPT的检测错误能力全面,对于人为篡改和原始输出中的错误,都达到了最高的全面性百分比。

然而,人类也最不容易产生幻觉或“鸡蛋里挑骨头”的问题。在产生幻觉方面,ChatGPT表现最差,CriticGPT稍有提升。

考虑到批评意见的全面性与减少幻觉之间的权衡,作者提出了“人机合作”模式的好处。人类与CriticGPT的团队表现能够超越模型或人类分别单独工作时的Pareto边界。可扩展监督的终极目标是帮助人类评估模型,训练出更好、更安全的策略。

在现实场景中,模型输出的错误可能分布在答案的很多部分。CriticGPT的工作重点是指出一处的重要错误,未来仍需探索如何识别分散在答案中的错误。

CriticGPT仍存在幻觉问题,且帮助有限。如果任务过于复杂,即使有模型协助,专家也可能无法做出良好的评估。但该方法为今后的RLHF训练带来新思路,通过RLHF训练CriticGPT,可以合成更多高质量的RLHF数据。

RLHF的上限

CriticGPT的推出标志着RLHF(人类反馈强化学习)的上限不再是人类。Jan Leike指出,RLHF是创造ChatGPT的核心技术,但其隐患在于人类能力的限制。当AI需要解决人类无能为力的任务时,人类无法给出相应反馈,导致AI无法改进。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

CriticGPT的成功意味着用弱模型监督训练更强模型的可扩展监督有了希望。虽然目前CriticGPT尚未显著提高人类在艰难任务上的准确性,但随着更好的预训练模型出现,这一框架将不断改进。

OpenAI发布CriticGPT:基于GPT-4自我改进,突破RLHF人类极限

如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!

参考:

继续阅读