天天看點

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

作者:Cedric聊AI

OpenAI近日釋出了新模型CriticGPT,這是一個專門為捕捉GPT-4生成代碼中的錯誤而訓練的模型。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

CriticGPT相當于GPT-4的“拐杖”,用于提高模型輸出的準确性。這個新模型的亮點是它通過自回歸Transformer政策,利用問題-答案對作為輸入,輸出批評并提出建設性的評論。

CriticGPT的訓練基于GPT-4,再用來評價GPT-4的生成結果。盡管這種“自我閉環”的方式引發了一些争議,但也有人認為這是模型自我提升的開始。

CriticGPT幫助人類監督AI執行困難任務,提高了代碼審查的準确率。研究人員發現,在許多情況下,CriticGPT比人類專家更擅長發現錯誤,甚至能在被認為“完美無缺”的任務中找出問題。

OpenAI釋出的技術文章中,Jan Leike的名字引人注目,他曾共同上司超級對齊團隊,緻力于開發InstructGPT、ChatGPT和GPT-4的對齊工作。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

CriticGPT:專為挑錯而生的模型

CriticGPT是由OpenAI研究團隊基于GPT-4建構的模型,專門用于捕捉ChatGPT代碼中的錯誤。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

實驗表明,有CriticGPT輔助,審查代碼的準确率提高了60%。

該團隊計劃将CriticGPT整合到RLHF流程中,為訓練師提供明确的AI支援。這對評估進階AI系統輸出至關重要,沒有這種工具,評級變得困難。

随着模型推理能力提升,ChatGPT的錯誤愈加難以察覺,給AI訓練師帶來挑戰。這是RLHF的根本性限制,模型逐漸超越人類知識水準,使校準更加困難。

CriticGPT通過撰寫批判性評論,指出ChatGPT回答中的不準确之處。盡管其建議不總是正确,但它幫助訓練師發現更多問題,增強了訓練師的技能,使批評更全面。

實驗中,超過60%的訓練師更傾向于選擇人類與CriticGPT團隊提供的批評,而非未經輔助的個人批評。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

CriticGPT訓練方法詳解

CriticGPT基于GPT-4建構,專門用于識别ChatGPT代碼中的錯誤。其訓練方法包括人為注入錯誤、批評生成和人類評估。以下是具體訓練步驟和技術細節。

CriticGPT的訓練包括以下幾個步驟:

1. 人類标注員人為注入微妙的bug。

2. 标注員寫下詳細批評意見。

3. 用這些資料訓練CriticGPT。

4. 通過RLHF優化批評意見品質。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

為進一步提高批評品質,OpenAI團隊使用了一種創新的強制采樣束搜尋(FSBS)技術。這種方法確定模型生成的批評全面且減少“幻覺”和“雞蛋裡挑骨頭”現象。FSBS通過強制模型生成多個不同的評論片段,再由獎勵模型對這些片段進行評分,選擇最佳評論組合。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

在訓練過程中,人類評估CriticGPT的批評意見,從全面性、捕捉錯誤的準确性、幻覺現象以及整體有用性等次元進行評分。标注員還不斷驗證自己插入的bug是否足夠隐蔽,以迫使CriticGPT不斷進化,發現更隐蔽的問題。這種類似于生成對抗網絡(GAN)的訓練思路,使CriticGPT的批評意見更加精準。

此外,OpenAI還進行了一系列消融實驗,驗證FSBS方法的有效性。他們發現FSBS能在生成更長、更全面的批評時,減少無中生有和挑剔現象的發生率。實驗結果顯示,采用FSBS技術,CriticGPT的表現顯著優于隻使用RL的方法。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

CriticGPT評估成果

OpenAI新模型CriticGPT在檢測ChatGPT輸出中的錯誤方面表現出色。實驗結果表明,CriticGPT在發現人為插入的bug時,成功率高達75%以上,而人類稽核員隻能找到25%。在評估自然出現的bug時,有63%的情況下,人類更傾向于選擇CriticGPT的評論。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

CriticGPT的評論被認為比ChatGPT的更全面,更少出現“幻覺”和無關緊要的挑剔。即使在非代碼任務中,CriticGPT也能成功識别數百個被人類認為是“完美”的錯誤。

研究發現,人類評估者在沒有LLM幫助下撰寫的批評意見較短,缺乏所需領域知識,導緻人類和模型之間的表現差異。CriticGPT的檢測錯誤能力全面,對于人為篡改和原始輸出中的錯誤,都達到了最高的全面性百分比。

然而,人類也最不容易産生幻覺或“雞蛋裡挑骨頭”的問題。在産生幻覺方面,ChatGPT表現最差,CriticGPT稍有提升。

考慮到批評意見的全面性與減少幻覺之間的權衡,作者提出了“人機合作”模式的好處。人類與CriticGPT的團隊表現能夠超越模型或人類分别單獨工作時的Pareto邊界。可擴充監督的終極目标是幫助人類評估模型,訓練出更好、更安全的政策。

在現實場景中,模型輸出的錯誤可能分布在答案的很多部分。CriticGPT的工作重點是指出一處的重要錯誤,未來仍需探索如何識别分散在答案中的錯誤。

CriticGPT仍存在幻覺問題,且幫助有限。如果任務過于複雜,即使有模型協助,專家也可能無法做出良好的評估。但該方法為今後的RLHF訓練帶來新思路,通過RLHF訓練CriticGPT,可以合成更多高品質的RLHF資料。

RLHF的上限

CriticGPT的推出标志着RLHF(人類回報強化學習)的上限不再是人類。Jan Leike指出,RLHF是創造ChatGPT的核心技術,但其隐患在于人類能力的限制。當AI需要解決人類無能為力的任務時,人類無法給出相應回報,導緻AI無法改進。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

CriticGPT的成功意味着用弱模型監督訓練更強模型的可擴充監督有了希望。雖然目前CriticGPT尚未顯著提高人類在艱難任務上的準确性,但随着更好的預訓練模型出現,這一架構将不斷改進。

OpenAI釋出CriticGPT:基于GPT-4自我改進,突破RLHF人類極限

如果你覺得這篇文章對你有所幫助,歡迎點贊、收藏以及轉發分享。同時,請關注我,以擷取更多關于人工智能的最新資訊和見解!

參考:

繼續閱讀