OpenAI近日釋出了新模型CriticGPT，這是一個專門為捕捉GPT-4生成代碼中的錯誤而訓練的模型。

OpenAI釋出CriticGPT：基于GPT-4自我改進，突破RLHF人類極限

CriticGPT相當于GPT-4的“拐杖”，用于提高模型輸出的準确性。這個新模型的亮點是它通過自回歸Transformer政策，利用問題-答案對作為輸入，輸出批評并提出建設性的評論。

CriticGPT的訓練基于GPT-4，再用來評價GPT-4的生成結果。盡管這種“自我閉環”的方式引發了一些争議，但也有人認為這是模型自我提升的開始。

CriticGPT幫助人類監督AI執行困難任務，提高了代碼審查的準确率。研究人員發現，在許多情況下，CriticGPT比人類專家更擅長發現錯誤，甚至能在被認為“完美無缺”的任務中找出問題。

OpenAI釋出的技術文章中，Jan Leike的名字引人注目，他曾共同上司超級對齊團隊，緻力于開發InstructGPT、ChatGPT和GPT-4的對齊工作。

CriticGPT：專為挑錯而生的模型

CriticGPT是由OpenAI研究團隊基于GPT-4建構的模型，專門用于捕捉ChatGPT代碼中的錯誤。

實驗表明，有CriticGPT輔助，審查代碼的準确率提高了60%。

該團隊計劃将CriticGPT整合到RLHF流程中，為訓練師提供明确的AI支援。這對評估進階AI系統輸出至關重要，沒有這種工具，評級變得困難。

随着模型推理能力提升，ChatGPT的錯誤愈加難以察覺，給AI訓練師帶來挑戰。這是RLHF的根本性限制，模型逐漸超越人類知識水準，使校準更加困難。

CriticGPT通過撰寫批判性評論，指出ChatGPT回答中的不準确之處。盡管其建議不總是正确，但它幫助訓練師發現更多問題，增強了訓練師的技能，使批評更全面。

實驗中，超過60%的訓練師更傾向于選擇人類與CriticGPT團隊提供的批評，而非未經輔助的個人批評。

CriticGPT訓練方法詳解

CriticGPT基于GPT-4建構，專門用于識别ChatGPT代碼中的錯誤。其訓練方法包括人為注入錯誤、批評生成和人類評估。以下是具體訓練步驟和技術細節。

CriticGPT的訓練包括以下幾個步驟：

1. 人類标注員人為注入微妙的bug。

2. 标注員寫下詳細批評意見。

3. 用這些資料訓練CriticGPT。

4. 通過RLHF優化批評意見品質。

為進一步提高批評品質，OpenAI團隊使用了一種創新的強制采樣束搜尋（FSBS）技術。這種方法確定模型生成的批評全面且減少“幻覺”和“雞蛋裡挑骨頭”現象。FSBS通過強制模型生成多個不同的評論片段，再由獎勵模型對這些片段進行評分，選擇最佳評論組合。

在訓練過程中，人類評估CriticGPT的批評意見，從全面性、捕捉錯誤的準确性、幻覺現象以及整體有用性等次元進行評分。标注員還不斷驗證自己插入的bug是否足夠隐蔽，以迫使CriticGPT不斷進化，發現更隐蔽的問題。這種類似于生成對抗網絡（GAN）的訓練思路，使CriticGPT的批評意見更加精準。

此外，OpenAI還進行了一系列消融實驗，驗證FSBS方法的有效性。他們發現FSBS能在生成更長、更全面的批評時，減少無中生有和挑剔現象的發生率。實驗結果顯示，采用FSBS技術，CriticGPT的表現顯著優于隻使用RL的方法。

CriticGPT評估成果

OpenAI新模型CriticGPT在檢測ChatGPT輸出中的錯誤方面表現出色。實驗結果表明，CriticGPT在發現人為插入的bug時，成功率高達75%以上，而人類稽核員隻能找到25%。在評估自然出現的bug時，有63%的情況下，人類更傾向于選擇CriticGPT的評論。

CriticGPT的評論被認為比ChatGPT的更全面，更少出現“幻覺”和無關緊要的挑剔。即使在非代碼任務中，CriticGPT也能成功識别數百個被人類認為是“完美”的錯誤。

研究發現，人類評估者在沒有LLM幫助下撰寫的批評意見較短，缺乏所需領域知識，導緻人類和模型之間的表現差異。CriticGPT的檢測錯誤能力全面，對于人為篡改和原始輸出中的錯誤，都達到了最高的全面性百分比。

然而，人類也最不容易産生幻覺或“雞蛋裡挑骨頭”的問題。在産生幻覺方面，ChatGPT表現最差，CriticGPT稍有提升。

考慮到批評意見的全面性與減少幻覺之間的權衡，作者提出了“人機合作”模式的好處。人類與CriticGPT的團隊表現能夠超越模型或人類分别單獨工作時的Pareto邊界。可擴充監督的終極目标是幫助人類評估模型，訓練出更好、更安全的政策。

在現實場景中，模型輸出的錯誤可能分布在答案的很多部分。CriticGPT的工作重點是指出一處的重要錯誤，未來仍需探索如何識别分散在答案中的錯誤。

CriticGPT仍存在幻覺問題，且幫助有限。如果任務過于複雜，即使有模型協助，專家也可能無法做出良好的評估。但該方法為今後的RLHF訓練帶來新思路，通過RLHF訓練CriticGPT，可以合成更多高品質的RLHF資料。

RLHF的上限

CriticGPT的推出标志着RLHF（人類回報強化學習）的上限不再是人類。Jan Leike指出，RLHF是創造ChatGPT的核心技術，但其隐患在于人類能力的限制。當AI需要解決人類無能為力的任務時，人類無法給出相應回報，導緻AI無法改進。

CriticGPT的成功意味着用弱模型監督訓練更強模型的可擴充監督有了希望。雖然目前CriticGPT尚未顯著提高人類在艱難任務上的準确性，但随着更好的預訓練模型出現，這一架構将不斷改進。

如果你覺得這篇文章對你有所幫助，歡迎點贊、收藏以及轉發分享。同時，請關注我，以擷取更多關于人工智能的最新資訊和見解！

參考：

OpenAI釋出CriticGPT：基于GPT-4自我改進，突破RLHF人類極限

CriticGPT：專為挑錯而生的模型

CriticGPT訓練方法詳解

CriticGPT評估成果

RLHF的上限

繼續閱讀

人類迷惑行為！58歲豔星突然向已婚舊愛表白，分手24年念念不忘！

動物交配前愛互相聞屁股，看似尴尬的禮節，其實比人類科技好用？

相對于男性，為何女性身材矮小、戰鬥力弱？科學揭秘人類進化之謎

華為 25 億元轉讓問界商标給賽力斯；蘋果或入 OpenAI 董事會；閑魚上線「履歷」功能，幫使用者搞副業賺錢｜極客早知道

華為回應25億元轉讓“問界”商标等；蘋果或獲得OpenAI董事會觀察員職位；阿裡雲回應B站、小紅書崩了 | 極客頭條

消息指蘋果将獲OpenAI董事會觀察員職位，與後者大股東享同樣董事會地位

誰卡了OpenAI的脖子？｜钛媒體AGI

OpenAI又陷抄襲門？

中國人類級狗糧行業市場研究報告

Cell | 徐勇等揭示TRPC5參與調節人類的食欲、體重和産後抑郁等行為

人類社會在私有制中發展十七：私有制和人性自然規律

馬斯克豪擲40億購10萬張H100訓Grok 3！Grok 2下月上線，劍指OpenAI

《淨化人類》第104章：送你一輛車

餐桌上的生存智慧：為什麼人類更愛食草動物的肉？

人類眨個眼，機器人就把魔方複原了，“手”快到根本看不清……

OpenAI不Open：阻攔還是助攻？丨大象深度