天天看點

ENVISIONS:一種無需人類标注的LLM自訓練架構

作者:ChatGPT掃地僧

ENVISIONS:一種無需人類标注的LLM自訓練架構

論文:Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models

位址:https://arxiv.org/abs/2406.11736

項目:https://github.com/xufangzhi/ENVISIONS

這篇論文試圖解決什麼問題?

這篇論文提出了一個名為ENVISIONS的環境引導的神經符号自訓練架構,旨在解決以下兩個問題:

  1. 符号資料的稀缺性:在神經符号場景中,與豐富的自然語言(NL)标注資料相比,擷取符号标注資料(例如,用于複雜規劃、數學推理、機器人學和代理任務的符号表示)更加困難和昂貴。
  2. 大型語言模型(LLMs)處理符号語言的能力有限:目前的自訓練方法在自然語言場景中取得了成功,但在神經符号場景中,LLMs在處理符号語言方面的能力還有待提高。

為了解決這些問題,ENVISIONS架構通過與環境的互動來進行疊代訓練,以增強LLMs處理符号語言的能力,并減少對人類标注資料的需求。通過廣泛的評估,論文證明了該方法在不同領域(包括Web代理、數學推理和邏輯推理)的有效性,并通過深入分析揭示了ENVISIONS成功的貢獻因素,為未來在這一領域的研究提供了有價值的見解。

論文如何解決這個問題?

論文通過提出ENVISIONS架構來解決上述問題,具體方法包括以下幾個關鍵步驟:

ENVISIONS:一種無需人類标注的LLM自訓練架構
  1. 環境引導的自訓練(Env-guided Self-Training): ENVISIONS架構采用環境引導的自訓練方法,通過與環境的互動來疊代訓練LLMs。這種方法不依賴于現有的更強大的LLMs或人類标注的符号資料。
  2. 線上探索(Online Exploration): LLMs自主地與環境互動,生成候選的符号解決方案,并通過執行這些方案來獲得回報。這個過程包括自我探索、自我提煉和自我獎勵三個階段。
  3. 自我探索(Self-Exploration):給定自然語言輸入,LLM生成多種符号輸出,并在環境中執行這些輸出以獲得基于期望輸出的二進制回報。
  4. 自我提煉(Self-Refinement):使用自我探索得到的解決方案作為參考,LLM重新生成經過提煉的符号解決方案,以提高解決方案的品質。
  5. 自我獎勵(Self-Rewarding):根據LLM生成的符号解決方案的序列輸出機率計算軟獎勵分數,以此來區分不同正解之間的偏好或從負解中獲得有價值的回報。
  6. 資料選擇和訓練政策(Data Selection and Training Strategies): 通過線上探索階段生成的候選軌迹,ENVISIONS選擇優質軌迹進行LLM的訓練。這包括軌迹過濾、候選池更新、監督式微調以及從錯誤中學習。
  7. 對比損失函數(Contrastive Loss Function): ENVISIONS設計了一個無需強化學習的損失函數,通過對比正負解決方案來優化模型,這樣做提高了訓練效率并保持了自我提煉的能力。

通過這些方法,ENVISIONS架構能夠在不需要昂貴的人類标注資料和現有強大模型的情況下,有效地提升LLMs處理符号語言的能力,并在多個領域展現出卓越的性能。

論文做了哪些實驗?

論文中進行了廣泛的實驗來評估ENVISIONS架構的有效性,實驗涉及三個不同的領域:Web代理、數學推理和邏輯推理。以下是具體的實驗細節:

  1. 資料集: 選擇了三個領域内的多個資料集進行評估:
  2. Web代理:使用了MiniWob++資料集,這是一個廣泛使用的Web導航基準測試。
  3. 數學推理:包括了GSM8K、MATH、GSM-Hard、SVAMP和AsDiv等任務。
  4. 邏輯推理:使用了ProofWriter和RuleTaker資料集來評估邏輯推理性能。
  5. 基線和訓練細節: 考慮了三種不同的基線方法,包括Distill-then-Finetune、Reinforced Self-Training和Env-guided Self-Training,并在相同的代碼庫下複現這些基線以確定公平比較。
  6. 訓練配置: 使用了LLaMA2-Chat 7B/13B模型進行評估,并設定了不同的候選解決方案數量K(5個),疊代次數(對于Web代理、數學和邏輯任務分别設定為5、10和8次疊代)。
  7. 主要結果: 展示了ENVISIONS與其他基線方法相比的性能提升,包括與Distill-then-Finetune方法相比5.66%-7.13%的改進,以及與Reinforced Self-Training和其他Env-guided Self-Training方法相比2.78%-14.47%的平均增益。
  8. 自我訓練架構的疊代演變: 通過疊代演變曲線展示了ENVISIONS和其他自訓練方法的性能進步,特别是在LLaMA2Chat 13B模型上。
  9. 消融研究: 對ENVISIONS的關鍵元件進行了消融研究,以驗證它們在提升性能中的作用,包括自我提煉過程、自我獎勵政策、長期記憶的使用以及L2損失函數的優化。
  10. 泛化到不同模型: 展示了ENVISIONS架構對其他大型語言模型(如DeepSeek-Chat和Llemma)在數學推理任務上的泛化能力。
  11. 分析實驗: 深入分析了ENVISIONS成功的原因,包括探索能力和穩定性的平衡、正負解之間的對數機率邊界以及合成樣本的多樣性。
  12. 實驗設定和統計顯著性: 論文詳細說明了所有訓練和測試的細節,包括資料分割、超參數選擇、優化器類型等,但沒有報告誤差條,因為計算成本過高。
  13. 計算資源: 提供了實驗所需的計算資源資訊,包括GPU類型和數量。

這些實驗結果表明,ENVISIONS架構能夠有效地提升LLMs在神經符号場景中的表現,并且具有很好的泛化能力和可擴充性。

論文主要内容總結

這篇論文的主要内容可以總結如下:

問題提出: 論文針對大型語言模型(LLMs)在神經符号場景下的應用,提出了兩個主要挑戰:符号資料的稀缺性和LLMs在處理符号語言上的局限性。

ENVISIONS架構: 為了解決上述問題,論文提出了一個名為ENVISIONS的環境引導神經符号自訓練架構,該架構不依賴于人類标注的符号資料,也不需要現有的更強大的LLMs作為教師模型。

自訓練方法: ENVISIONS架構采用疊代的自訓練方法,包括自我探索、自我提煉和自我獎勵三個階段,以增強LLMs處理符号語言的能力。

實驗評估: 論文在Web代理、數學推理和邏輯推理三個不同的領域進行了廣泛的實驗評估,驗證了ENVISIONS架構的有效性。

性能提升: 實驗結果顯示,ENVISIONS在各個領域中均展現出了優越的性能,與現有的自訓練方法相比有顯著的性能提升。

消融研究: 通過消融研究,論文深入分析了ENVISIONS架構中關鍵元件的作用,包括自我提煉過程、自我獎勵政策等。

泛化能力: 論文還探讨了ENVISIONS架構對不同LLMs的泛化能力,證明了其能夠提升不同基礎模型在數學推理任務上的性能。

深入分析: 論文從探索能力、穩定性、正負解之間的對數機率邊界以及合成樣本的多樣性等角度,深入分析了ENVISIONS架構的優勢。

未來工作: 論文讨論了ENVISIONS架構的局限性,并提出了未來研究的方向,如擴充到更廣泛的領域、更大規模的模型、提高計算效率等。

社會影響: 論文讨論了該研究可能帶來的社會影響,包括積極的和潛在的負面影響,并考慮了相應的緩解政策。

總的來說,這篇論文提出了一個創新的自訓練架構ENVISIONS,旨在提高LLMs在神經符号場景下的性能,并通過一系列實驗驗證了其有效性,同時對未來的研究方向提供了指導。

繼續閱讀