OpenAI近日釋出了新模型CriticGPT,這是一個專門為捕捉GPT-4生成代碼中的錯誤而訓練的模型。
CriticGPT相當于GPT-4的“拐杖”,用于提高模型輸出的準确性。這個新模型的亮點是它通過自回歸Transformer政策,利用問題-答案對作為輸入,輸出批評并提出建設性的評論。
CriticGPT的訓練基于GPT-4,再用來評價GPT-4的生成結果。盡管這種“自我閉環”的方式引發了一些争議,但也有人認為這是模型自我提升的開始。
CriticGPT幫助人類監督AI執行困難任務,提高了代碼審查的準确率。研究人員發現,在許多情況下,CriticGPT比人類專家更擅長發現錯誤,甚至能在被認為“完美無缺”的任務中找出問題。
OpenAI釋出的技術文章中,Jan Leike的名字引人注目,他曾共同上司超級對齊團隊,緻力于開發InstructGPT、ChatGPT和GPT-4的對齊工作。
CriticGPT:專為挑錯而生的模型
CriticGPT是由OpenAI研究團隊基于GPT-4建構的模型,專門用于捕捉ChatGPT代碼中的錯誤。
實驗表明,有CriticGPT輔助,審查代碼的準确率提高了60%。
該團隊計劃将CriticGPT整合到RLHF流程中,為訓練師提供明确的AI支援。這對評估進階AI系統輸出至關重要,沒有這種工具,評級變得困難。
随着模型推理能力提升,ChatGPT的錯誤愈加難以察覺,給AI訓練師帶來挑戰。這是RLHF的根本性限制,模型逐漸超越人類知識水準,使校準更加困難。
CriticGPT通過撰寫批判性評論,指出ChatGPT回答中的不準确之處。盡管其建議不總是正确,但它幫助訓練師發現更多問題,增強了訓練師的技能,使批評更全面。
實驗中,超過60%的訓練師更傾向于選擇人類與CriticGPT團隊提供的批評,而非未經輔助的個人批評。
CriticGPT訓練方法詳解
CriticGPT基于GPT-4建構,專門用于識别ChatGPT代碼中的錯誤。其訓練方法包括人為注入錯誤、批評生成和人類評估。以下是具體訓練步驟和技術細節。
CriticGPT的訓練包括以下幾個步驟:
1. 人類标注員人為注入微妙的bug。
2. 标注員寫下詳細批評意見。
3. 用這些資料訓練CriticGPT。
4. 通過RLHF優化批評意見品質。
為進一步提高批評品質,OpenAI團隊使用了一種創新的強制采樣束搜尋(FSBS)技術。這種方法確定模型生成的批評全面且減少“幻覺”和“雞蛋裡挑骨頭”現象。FSBS通過強制模型生成多個不同的評論片段,再由獎勵模型對這些片段進行評分,選擇最佳評論組合。
在訓練過程中,人類評估CriticGPT的批評意見,從全面性、捕捉錯誤的準确性、幻覺現象以及整體有用性等次元進行評分。标注員還不斷驗證自己插入的bug是否足夠隐蔽,以迫使CriticGPT不斷進化,發現更隐蔽的問題。這種類似于生成對抗網絡(GAN)的訓練思路,使CriticGPT的批評意見更加精準。
此外,OpenAI還進行了一系列消融實驗,驗證FSBS方法的有效性。他們發現FSBS能在生成更長、更全面的批評時,減少無中生有和挑剔現象的發生率。實驗結果顯示,采用FSBS技術,CriticGPT的表現顯著優于隻使用RL的方法。
CriticGPT評估成果
OpenAI新模型CriticGPT在檢測ChatGPT輸出中的錯誤方面表現出色。實驗結果表明,CriticGPT在發現人為插入的bug時,成功率高達75%以上,而人類稽核員隻能找到25%。在評估自然出現的bug時,有63%的情況下,人類更傾向于選擇CriticGPT的評論。
CriticGPT的評論被認為比ChatGPT的更全面,更少出現“幻覺”和無關緊要的挑剔。即使在非代碼任務中,CriticGPT也能成功識别數百個被人類認為是“完美”的錯誤。
研究發現,人類評估者在沒有LLM幫助下撰寫的批評意見較短,缺乏所需領域知識,導緻人類和模型之間的表現差異。CriticGPT的檢測錯誤能力全面,對于人為篡改和原始輸出中的錯誤,都達到了最高的全面性百分比。
然而,人類也最不容易産生幻覺或“雞蛋裡挑骨頭”的問題。在産生幻覺方面,ChatGPT表現最差,CriticGPT稍有提升。
考慮到批評意見的全面性與減少幻覺之間的權衡,作者提出了“人機合作”模式的好處。人類與CriticGPT的團隊表現能夠超越模型或人類分别單獨工作時的Pareto邊界。可擴充監督的終極目标是幫助人類評估模型,訓練出更好、更安全的政策。
在現實場景中,模型輸出的錯誤可能分布在答案的很多部分。CriticGPT的工作重點是指出一處的重要錯誤,未來仍需探索如何識别分散在答案中的錯誤。
CriticGPT仍存在幻覺問題,且幫助有限。如果任務過于複雜,即使有模型協助,專家也可能無法做出良好的評估。但該方法為今後的RLHF訓練帶來新思路,通過RLHF訓練CriticGPT,可以合成更多高品質的RLHF資料。
RLHF的上限
CriticGPT的推出标志着RLHF(人類回報強化學習)的上限不再是人類。Jan Leike指出,RLHF是創造ChatGPT的核心技術,但其隐患在于人類能力的限制。當AI需要解決人類無能為力的任務時,人類無法給出相應回報,導緻AI無法改進。
CriticGPT的成功意味着用弱模型監督訓練更強模型的可擴充監督有了希望。雖然目前CriticGPT尚未顯著提高人類在艱難任務上的準确性,但随着更好的預訓練模型出現,這一架構将不斷改進。
如果你覺得這篇文章對你有所幫助,歡迎點贊、收藏以及轉發分享。同時,請關注我,以擷取更多關于人工智能的最新資訊和見解!
參考: