天天看點

重新審視Prompt優化問題,預測偏差讓語言模型上下文學習更強

作者:機器之心Pro

機器之心專欄

機器之心編輯部

LLMs 在 In-context Learning 下取得了良好的表現,但是選取不同的示例會導緻截然不同的表現。一項最新的研究工作從預測偏差 (predictive bias) 角度,提出了 prompt 搜尋政策,近似找到了最優的示例組合。
重新審視Prompt優化問題,預測偏差讓語言模型上下文學習更強

論文連結: https://arxiv.org/abs/2303.13217

代碼連結: https://github.com/MaHuanAAA/g_fair_searching

研究介紹

大型語言模型在上下文學習中表現出了驚人的能力,這些模型可以通過幾個輸入輸出示例建構的上下文進行學習,無需微調優化直接應用于許多下遊任務。然而,先前的研究表明,由于訓練樣本 (training examples)、示例順序 (example order) 和提示格式 (prompt formats) 的變化,上下文學習可能會表現出高度的不穩定性。是以,建構适當的 prompt 對于提高上下文學習的表現至關重要。

以前的研究通常從兩個方向研究這個問題:(1)編碼空間中的提示調整 (prompt tuning),(2)在原始空間中進行搜尋 (prompt searching)。

Prompt tuning 的關鍵思想是将任務特定的 embedding 注入隐藏層,然後使用基于梯度的優化來調整這些 embeddings。然而,這些方法需要修改模型的原始推理過程并且獲得模型梯度,這在像 GPT-3 和 ChatGPT 這樣的黑盒 LLM 服務中是不切實際的。此外,提示調整會引入額外的計算和存儲成本,這對于 LLM 通常是昂貴的。

更可行且高效的方法是通過在原始文本空間中搜尋近似的示範樣本和順序來優化提示。一些工作從 “Global view” 或 “Local view” 建構提示。基于 Global view 的方法通常将提示的不同元素作為整體進行優化,以達到更優異的性能。例如,Diversity-guided [1] 的方法利用示範的整體多樣性的搜尋,或者試圖優化整個示例組合順序 [2],以實作更好的性能。與 Global view 相反,基于 Local view 的方法通過設計不同的啟發式選擇标準,例如 KATE [3]。

但這些方法都有各自的局限性:(1)目前的大多數研究主要集中在沿着單個因素搜尋提示,例如示例選擇或順序。然而各個因素對性能的總體影響尚不清楚。(2)這些方法通常基于啟發式标準,需要一個統一的視角來解釋這些方法是如何工作的。(3)更重要的是,現有的方法會全局或局部地優化提示,這可能會導緻性能不理想。

本文從 “預測偏差” 的角度重新審視了 NLP 領域中的 prompt 優化問題,發現了一個關鍵現象:一個給定的 prompt 的品質取決于它的内在偏差。基于這個現象,文章提出了一個基于預測偏差的替代标準來評估 prompt 的品質,該度量方法能夠在不需要額外開發集 (development set) 的情況下通過單個前向過程來評估 prompt。

具體來說,通過在一個給定的 prompt 下輸入一個 “無内容” 的測試,期望模型輸出一個均勻的預測分布(一個 “無内容” 的輸入不包含任何有用的資訊)。是以,文中利用預測分布的均勻性來表示給定 prompt 的預測偏差。這與先前的後校準方法 [4] 用的名額類似,但與後校準在固定的 prompt 情況下使用這個 metric 進行機率後校準不同的是,文中進一步探索了其在自動搜尋近似 prompt 中的應用。并通過大量實驗證明了一個給定 prompt 的内在偏差和它在給定測試集上的平均任務表現之間的相關性。

重新審視Prompt優化問題,預測偏差讓語言模型上下文學習更強

此外,這種基于偏差的度量使該方法能夠以 “局部到全局” 的方式搜尋合适的 prompt。然而,一個現實的問題是無法通過周遊所有組合的方式搜尋最優解,因為它的複雜度将超過 O (N!)。

該工作提出了兩種新穎的政策以高效的方式搜尋高品質的 prompt:(1) T-fair-Prompting (2) G-fair-Prompting。T-fair-Prompting 使用一種直覺的方式,首先計算每個示例單獨組成 prompt 的偏差,然後選擇 Top-k 個最公平示例組合成最終 prompt。這個政策相當高效,複雜度為 O (N)。但需要注意的是,T-fair-Prompting 基于這樣的假設:最優的 prompt 通常是由偏差最小的示例建構的。然而,這在實際情況下可能并不成立,并且往往會導緻局部最優解。是以,文章中進一步介紹了 G-fair-Prompting 來改善搜尋品質。G-fair-Prompting 遵循貪心搜尋的正常過程,通過在每個步驟上進行局部最優選擇來找到最優解。在算法的每一步,所選擇的示例都能使更新的 prompt 獲得最佳的公平性,最壞情況時間複雜度為 O (N^2),搜尋品質顯著提高。G-fair-Prompting 從局部到全局的角度進行工作,其中在早期階段考慮單個樣本的偏差,而在後期階段則側重于減少全局預測偏差。

實驗結果

該研究提出了一種有效和可解釋的方法來提高語言模型的上下文學習性能,這種方法可以應用于各種下遊任務。文章驗證了這兩種政策在各種 LLMs(包括 GPT 系列模型和最近釋出的 LMaMA 系列)上的有效性,G-fair-Prompting 與 SOTA 方法相比,在不同的下遊任務上獲得了超過 10%的相對改進。

重新審視Prompt優化問題,預測偏差讓語言模型上下文學習更強

與該研究最相近的是 Calibration-before-use [4] 方法,兩者都使用 “無内容” 的輸入提高模型的表現。但是,Calibration-before-use 方法旨在使用該标準來校準輸出,而該輸出仍然容易受到所使用示例的品質的影響。與之相比,本文旨在搜尋原始空間找到近似最優的 prompt,以提高模型的性能,而不需要對模型輸出進行任何後處理。此外,該文首次通過大量實驗驗證了預測偏差與最終任務性能之間的聯系,這在 Calibration-before-use 方法中尚未研究。

重新審視Prompt優化問題,預測偏差讓語言模型上下文學習更強

通過實驗還能發現,即使不進行校準,該文章所提方法選擇的 prompt 也可以優于經過校準的随機選擇的 prompt。這表明該方法可以在實際應用中具有實用性和有效性,可以為未來的自然語言處理研究提供啟示。

[1] Shizhe Diao, Pengcheng Wang, Yong Lin, and Tong Zhang. Active prompting with chain-of-thought for large language models. arXiv preprint arXiv:2302.12246, 2023.

[2] Yao Lu, Max Bartolo, Alastair Moore, Sebastian Riedel, and Pontus Stenetorp. Fantastically ordered prompts and where to find them: Overcoming few-shot prompt order sensitivity. In ACL, 2021.

[3] Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, and Weizhu Chen. What makes good in-context examples for gpt-3? arXiv preprint arXiv:2101.06804, 2021.

[4] Tony Z. Zhao, Eric Wallace, Shi Feng, Dan Klein, and Sameer Singh. Calibrate before use: Improving few-shot performance of language models. In ICML, 2021.

繼續閱讀