76頁綜述+300餘篇參考文獻，天大團隊全面介紹大語言模型對齊技術

機器之心專欄

作者：熊德意教授團隊

天大自然語言處理團隊從更廣泛的 AI 對齊視角，審視大語言模型對齊技術，并從多個角度進行深入讨論。

近日，天津大學熊德意教授團隊釋出了大語言模型對齊技術的綜述論文（下文簡稱為對齊綜述），全文共 76 頁，覆寫 300 餘篇參考文獻，從 AI 對齊的角度對大語言模型對齊的相關技術進行了全面概述。為提供一個大語言模型對齊的宏觀視角，對齊綜述介紹了 AI 對齊的起源和相關概念，從 AI 對齊的視角，将目前可用于大語言模型的對齊相關的技術方法和提案分為外部對齊、内部對齊、可解釋性三大類。并且讨論了目前大語言模型對齊方法的脆弱性，以及對齊評估的方法和基準，展望了大語言模型對齊技術未來的研究方向。

綜述簡介

近年來，大語言模型取得了顯著進展，其中最為人們所熟知的有 OpenAI 的 ChatGPT 和 GPT-4 等。這些模型在衆多領域如數學、邏輯推理、醫學、法律和程式設計中展現出接近人類的水準。但随着大語言模型能力的飛速發展，關于它們可能帶來的倫理風險和對人類的潛在威脅的擔憂也随之增長。大語言模型可傳播其訓練資料中的有害資訊，例如偏見、歧視和有毒内容等。它們可能會洩露訓練資料中的私密和敏感資訊，或産生誤導性和虛假性資訊。未來這些語言代理将越來越多地融入我們的日常生活，任何未對齊行為都可能導緻意想不到的後果。是以，需要推動大語言模型對齊技術的研究和突破，使模型的輸出和行為與人類的期望和價值相一緻。

目前，大語言模型對齊研究主要聚焦在外部對齊領域。然而，對對齊的整體了解不僅應該涵蓋廣泛研究的外部對齊，還應該包含目前仍處于研究起步階段且具有巨大潛力的領域，如内部對齊、機械可解釋性等。雖然這些新興領域的研究有些仍然停留在理論階段，或僅僅是思想實驗，但它們對大語言模型對齊技術研究及未來發展是不可或缺的。鑒于此，天大自然語言處理團隊從更廣泛的 AI 對齊視角，審視大語言模型對齊技術，并從多個角度進行深入讨論。

論文位址：https://arxiv.org/abs/2309.15025

什麼是大語言模型對齊？

作為讨論大語言模型對齊相關工作的重要背景，對齊綜述先對 AI 對齊進行了概述，簡要介紹了 AI 對齊的起源、研究背景和相關概念。相比于近幾年橫空出世的大語言模型，AI 對齊的研究相對更早。早在 1960 年，控制論之父諾伯特・維納就表達了自己的擔憂：如果我們使用一個機械代理實作我們的目标，一旦開始它的操作，我們就無法有效地對其幹預，因為該操作是如此之快且不可撤銷，以至于我們在操作完成之前沒有資料進行幹預，那麼我們就最好確定該機器的用途是我們真正想要的用途，而不僅僅是對它的生動模仿。這段話強調了確定 “機械代理” 的目标與我們真正想要的目标保持一緻的重要性，強調機器和人類目标之間的一緻性。但随後很長一段時間，此類研究并沒有真正開展，直到 2010 年左右，Stuart Russell 等人逐漸開始研究這一領域，并将其稱為 “價值對齊問題”（Value Alignment Problem）。Russell 強調了将 AI 的目标與人類價值對齊的重要性，以確定 AI 系統在各種情境下都能為人類帶來益處，而不是造成傷害。

受上述觀點啟發，對齊綜述從對齊研究的内容出發定義了 AI 對齊：AI 對齊是確定人工智能代理的外部和内部目标與人類價值一緻的技術。其中外部目标是 AI 的設計者根據人類價值定義的目标，而内部目标是 AI 代理内部優化的目标。由這個定義出發，對齊綜述讨論了正交性論點、工具性目标趨同等 AI 對齊領域重要的概念和假設。值得注意的是，目前 AI 對齊研究中最受關注的正是大語言模型對齊，且大語言模型對齊的許多概念、方法論來自于更廣泛的 AI 對齊研究。

一方面，大語言模型作為新興的高性能 AI 系統，為 AI 對齊研究提供了堅實的基礎。許多 AI 對齊概念和提案，例如對齊的理論假設和實證方法，都可以使用大語言模型（而不是假設的超級智能系統）進行實驗。另一方面，大語言模型研究的快速推進不僅擴充了 AI 對齊研究的前沿，還可以為 AI 對齊提供工具。當然，強調大語言模型對齊對 AI 對齊的重要性并不意味着我們可以在 AI 對齊的背景之外進行大語言模型對齊研究。對 AI 對齊的廣泛深入的研究必定能促進大語言模型的對齊。

從大語言模型潛在風險

論證大語言模型對齊必要性

大語言模型是一種變革性 AI 技術，它将重塑社會和科學技術發展，但同時也存在多種可見及預見的風險。首先，大語言模型可能生成不符合人類期望的文本，其中可能包含歧視、偏見和洩露他人隐私的内容。其次，大語言模型由于其固有的幻覺問題，有可能會生成不真實、前後不一緻和具有誤導性的内容。

另一方面，大語言模型也會被别有用心的人用來執行惡意行為。例如，未經對齊的大語言模型能夠生成以假亂真的假新聞，也能夠幫助黑客們對網絡上的裝置開展攻擊。這些惡意行為會對我們的日常生活産生負面影響，甚至會對整個社會造成嚴重的傷害。除此之外，大語言模型的訓練和部署需要消耗巨大的計算資源和電力，同時還會對人們的就業産生影響。

随着其能力的不斷增強，大語言模型還可能展現出 “追求” 自我保護、自我增強、擷取資源等目标，這些目标在通用人工智能中通常被稱為工具性趨同目标，因為幾乎所有 AI 代理都有可能将它們作為亞目标。大語言模型對齊綜述從以上視角詳細論述了大語言模型對齊的必要性。

大語言模型對齊方法

AI 對齊是一個旨在確定 AI 系統的決策與人類的價值觀、期望和目标保持一緻的過程。當我們談到大語言模型的對齊時，意味着這些模型不僅能夠了解人類語言，還能夠按照我們的預期和道德倫理響應。這涉及到社會、倫理、哲學及技術等多方面的考量，以確定 AI 技術的發展不會對社會産生負面影響。具體說，大語言模型對齊研究可以分成三大領域：外部對齊、内部對齊和可解釋性。

外部對齊旨在選擇正确的損失函數或獎勵函數，并確定人工智能系統的訓練目标符合人類價值。換言之，外部對齊試圖将指定的訓練目标與其設計者的目标對齊。研究者們針對外部對齊提出了許多方法。根據各類對齊方法能夠監督的能力範圍，對齊綜述将其分為非遞歸監督 (Non-recursive Oversight) 和可擴充監督 (Scalable Oversight)。其中非遞歸監督隻能監督人類能力範圍之内的任務，而可擴充監督則能将監督範圍擴大到超出人類能力範圍的任務，以更好地應對強大的 AI 模型。

内部對齊則是為了確定人工智能系統訓練中真實優化和實作其設計者設定的目标。内部對齊失敗可能會導緻嚴重且不易被發現的後果，例如經過訓練以在遊戲中獲勝的人工智能系統可能會發現意外的漏洞，這些漏洞在技術上滿足其目标，但違反了遊戲準則。另一個例子是目标錯誤泛化 (goal misgeneralization) 問題，即使我們有正确的目标規範，由于分布之外的魯棒性問題，仍然可能會出現意想不到的目标。對齊綜述總結了内部對齊失敗的可能情形，并概述了内部對齊的主流方法和提案，如 Relaxed Adversarial Training, Reward Side-Channels, Cross-Episodic Objectives, Objective Unidentifiability, Zero-Shot Objectives 和 Robust Reward Learning 等。

可解釋性廣義上是指促進人類了解人工智能系統的内部運作、決策和行動的方法、模型和工具。對齊綜述重點關注其中的機械可解釋性，它試圖将機器學習系統（尤其是神經網絡）的輸出和行為通過逆向工程的方式定位到其内部狀态、權重和子產品。根據定位的不同，對齊綜述将相關工作分為 self-attention, MLP 和 neurons 可解釋性三類。由于大語言模型的參數數量巨大，對大語言模型進行逆向工程是非常困難的。目前的機械可解釋性研究通常在 Transformer 小型簡化模型上進行。然而，這是一個非常有前途的方向，它提供了對神經網絡對齊的深入見解，有望在未來引領大語言模型對齊的研究實作突破。

外部和内部對齊對于建構安全且值得信賴的人工智能至關重要。如果其中任何一個失敗，我們就有可能建立出與人類價值或意圖不一緻的系統。随着大語言模型的能力越來越強，這些對齊問題的重要性也随之增加，是以我們需要意識到：相比于大語言模型能力方面的研究，大語言模型對齊研究一樣重要，甚至更加重要。同時，雖然可解釋性并不直接針對對齊，但其工具和技術可以幫助外部和内部對齊。通過了解模型如何演變和決策，可以更好地識别偏差發生的時間和地點。例如，如果一個模型采取了意想不到的捷徑實作其目标，可解釋性可能會幫助我們了解這種情況何時以及如何發生。此外，可解釋性可以讓我們深入了解模型的内部推理過程，這有助于建構更加可信、透明的大語言模型。

針對對齊後的大語言模型的攻擊方法

最近的研究表明，對齊後的大語言模型能夠表現出針對惡意攻擊的防禦能力。然而，這并不是說現有的對齊技術就萬無一失了。例如，通過反複的互動，人類可以 “欺騙” 模型生成有害内容，這也被稱為 “越獄 (jailbreaking)”。除了越獄之外，對齊綜述還介紹了其它攻擊已對齊模型的方法，并将這些方法分為三類：隐私攻擊、後門攻擊和對抗攻擊。隐私攻擊是指攻擊者試圖從模型的輸出中提取有關訓練資料的私人或敏感資訊；後門攻擊是指通過注入并觸發某些漏洞使模型産生特定的、不正确的輸出；而對抗性攻擊則是通過對輸入資料引入精心設計的小擾動以改變模型行為的技術。這些擾動通常是人類無法察覺的，但可能導緻模型産生不正确或意外的輸出。

大語言模型對齊評測

評估對于對齊研究非常重要，有助于了解目前大語言模型對齊方法還存在哪些不足。基于這一點，對齊綜述對大語言模型對齊評測的相關的方法和資源進行了詳細論述，包括事實性、道德、毒性、刻闆印象和偏見，以及通用評估。

事實性評估：機器生成的内容應與事實一緻，避免生成有幻覺的内容。此外，生成的每條資訊所包含的事實都應該是準确的。是以，事實性評估包含了事實一緻性評估和事實準确性評估。

毒性評估：毒性是指在人際關系、工作環境或其他社會環境中表現出來的有害和破壞性行為或态度。這可能表現為控制他人、操縱、貶低或惡意攻擊。這些行為可能是公開的，也可能是隐蔽的，對個人的自尊、安全和福祉造成損害。對于大語言模型而言，毒性評估一般涵蓋了多種有毒文本，包括導緻自殘行為的建議、具有色情或暴力性質的内容、騷擾 / 貶低 / 冒犯 / 侮辱 / 仇恨言論、提倡網絡欺淩等攻擊性或暴力行為的建議，以及尋找非法商品或服務的指南或訓示等。

刻闆印象和偏見評估：刻闆印象和偏見是指一些基于種族、性别、性取向、宗教或其他特征的先入為主的态度。這些态度可能是消極的或積極的，但都是群體的普遍判斷，而不是基于個人的實際行為或特征。偏見可能導緻歧視或其他不公正行為，同時考慮到大語言模型生成的帶有刻闆印象和偏見的内容可能會加劇這種情況的發生，對其進行評估是非常重要的。

通用評估：除了上述側重于衡量對齊品質的特定方面（例如事實性、偏差）的評估基準和方法外，對齊綜述還綜合介紹了大語言模型對齊的通用評估，即同時評估對齊的多個次元，而不是隻衡量某一次元（如事實性、毒性等），包括通用評估方法和基準。

未來方向展望

除了介紹大語言模型對齊目前已有的相關工作之外，對齊綜述也對未來的研究方向進行了展望，主要分為七個方向：大語言模型對齊理論研究、可擴充監督、欺騙性對齊、大語言模型的自動對齊、可解釋性研究、基于對抗攻擊的大語言模型對齊評測及促進大語言模型對齊的研究領域建設。

大語言模型對齊理論研究：大語言模型對齊面臨的挑戰複雜且多樣，需要借鑒不同學科的多種思想和方法。對齊綜述總結并強調了對齊理論研究中的一些關鍵領域，如決策理論、可矯正性和世界模型。其中決策理論旨在深入研究大語言模型的反事實推理和潛在的悖論問題；可矯正性旨在研究如何提高大語言模型接受使用者的更正而不抵制和規避的能力；而世界模型則是為大語言模型提供一個更接近現實世界的環境，以確定大語言模型能夠感覺和适應現實世界的變化。

可擴充監督：可擴充監督是一個重要的研究領域，旨在確定人工智能技術以安全和負責任的方式開發和使用。通過制定能夠适應人工智能快速增長和發展的可擴充架構，確定 AI 技術造福社會，同時最大限度地減少其潛在危害。可擴充監督的核心挑戰是人工智能系統設計執行的任務的複雜性。對于人類難以直接判斷和完成的複雜任務，AI 對齊已經提出了相關的對齊方案，但這些方案尚未經過大規模的實證驗證。

欺騙性對齊：欺騙性對齊是指人工智能代理通過假裝與基本目标對齊以避免在訓練期間被修改。一旦不再面臨被修改的風險，智能體可能會停止優化基本目标并開始追求自己的内目标，這可能與其設計者定義的基本目标完全不同，并且可能有害。盡管欺騙性對齊通常在理論上進行探讨，但考慮到大型語言模型能力的快速進步，人們越來越擔心欺騙性對齊實際出現在大語言模型中。盡管對其存在的可能性仍有分歧，但其嚴重性已得到廣泛認可。考慮到這種嚴重性，我們最好在它真正發生之前采取經驗主義方法進行監測。

大語言模型的自動對齊：大語言模型的自動對齊是指開發自動化的對齊 “研究員”，協助人類開展對齊研究。監督者可以通過這些方法了解人工智能模型的行為，檢測異常情況并及時發現未對齊行為。

可解釋性研究：可解釋性研究可以幫助破除大語言模型的黑盒屬性，然而，随着大語言模型的複雜性和規模不斷增長，確定它們保持可了解性和透明性成為一項日益複雜的任務。目前，許多嘗試發掘可解釋性的工作隻能提供表面的見解，無法深入研究模型複雜的決策過程。考慮到人工智能的跨學科性質，這可能需要機器學習研究人員、倫理學家和神經科學家之間的持續合作來推動可解釋性研究的進展。

基于對抗攻擊的大語言模型對齊評測：對抗性攻擊是人工智能領域的強大工具，旨在通過有意設計的輸入迷惑或誤導人工智能系統。考慮到大語言模型的強大能力，使用一個大型模型作為攻擊者來生成針對對齊的對抗性示例可能是測試和評估另一個模型的對齊能力的有效方法。這種由對抗性攻擊驅動的動态測試有助于確定大語言模型能夠穩定地處理意外輸入。雖然這種方法增加了一些複雜性，但從這些對抗性測試中獲得的見解可能是無價的，幫助全面了解模型在對齊方面的優點和缺點。

促進大語言模型對齊研究領域建設：人工智能領域内的對齊研究社群仍處于萌芽階段，許多問題尚未得到解答，許多挑戰也尚未解決。目前的情況缺乏有凝聚力的科學範式，導緻理論、方法和實證結果存在争議。作為目前最有前景的對齊方法測試平台，大語言模型可以作為檢驗思想實驗和提案的平台，這将有助于制定穩定的研究方法，在關鍵問題上建立共識，并為人工智能對齊制定一緻的科學架構。另一方面，人工智能對齊社群深厚的思想積澱也将指導大語言模型研究社群實作對大語言模型的高效對齊。是以，大語言模型和人工智能對齊兩個研究社群之間的聯系将建立一個對雙方都有利的良性循環。

76頁綜述+300餘篇參考文獻，天大團隊全面介紹大語言模型對齊技術

繼續閱讀

從人工到自動化到AIOps再到ChatOps：大模型在運維領域的應用

大模型應用Step-By-Step

ChatUI：使用Gradio.NET為LLamaWorker快速建立大模型示範界面

國中數學平行四邊形中考模型彙總，暑假彎道超車必學！

【大模型】人工智能大語言模型發展技術研究-49頁附下載下傳

從零開始，用英偉達T4、A10訓練小型文生視訊模型，幾小時搞定

下一代AI大模型Grok 2，馬斯克公布時間

OpenAI開發大模型内容糾錯工具丨知乎推出AI搜尋産品「知乎直答」

中國兩大高科技巨頭聯手，推出人工智能大模型，超越美國GPT-4！

一個有趣的問題，你覺得#哪家數位廠商喜歡悶聲幹大事#？[靈光一閃]我想很多人的答案都是華為吧？無論是硬體方面還是軟體系統

高中實體 | 力學中常見的九大實體模型，學起來！

ICML 2024 Spotlight | 在解碼中重新對齊，讓語言模型更少幻覺、更符合人類偏好

祝你這個夏天過的一切順利圖源：toy.story.yana#樂高#樂高MOC#積木#模型#大人也要玩玩具

大模型淘汰賽，敢問錢在何方？

科大訊飛打造金融業專屬AI助手：大模型時代的金融科技創新

榮耀200系列重磅更新！端側大模型賦能AI消除新體驗