機器之心報道
編輯:蛋醬、Panda W
大模型出現後,湧現這一術語開始流行起來,通常表述為在小規模模型中不存在,但在大規模模型中存在的能力。但斯坦福大學的研究者對 LLM 擁有湧現能力的說法提出了質疑,他們認為是人為選擇度量方式的結果。
「别太迷信大模型的湧現,世界上哪兒有那麼多奇迹?」斯坦福大學的研究者發現,大模型的湧現與任務的評價名額強相關,并非模型行為在特定任務和規模下的基本變化,換一些更連續、平滑的名額後,湧現現象就不那麼明顯了,更接近線性。
近期,由于研究者們觀察到大型語言模型(LLMs),如 GPT、PaLM、LaMDA 可以在不同的任務中表現出所謂的「湧現能力」,這一術語在機器學習領域得到了極大關注:
事實上,複雜系統的新興特性一直以來都是實體學、生物學、數學等學科在研究的重點。
值得注意的一個觀點是,諾貝爾實體學獎獲得者 P.W.Anderson 提出了「More Is Different」。這一觀點認為,随着系統複雜性的增加,新的屬性可能會具象化,即使從對系統微觀細節的精确定量了解中并不能(容易或根本無法)預測到。
大模型領域的「湧現」如何定義?一種通俗的說法是「在小規模模型中不存在,但在大規模模型中存在的能力」,是以,它們不能通過簡單地推斷小規模模型的性能改進來預測。
這種湧現的能力可能首先在 GPT-3 家族中被發現。後續的一些工作強調了這一發現:「雖然模型性能在一般水準上是可以預測的,但在特定任務上,其性能有時會在規模上出現相當難以預測的湧現」。事實上,這些湧現能力非常令人驚訝,以至于「突然的、特定的能力擴充」已經被認為是 LLM 的兩個最高定義特征之一。此外,「breakthrough capabilities」和「sharp left turns」等術語也被使用。
綜上所述,我們可以确定 LLM 湧現能力的兩個決定性屬性:
1. 敏銳性,從「不存在」到「存在」似乎隻是瞬間的過渡;
2. 不可預測性,在看似不可預見的模型規模内過渡。
與此同時,還有一些問題懸而未決:是什麼控制了哪些能力會湧現?什麼控制着能力的湧現?我們怎樣才能使理想的能力更快地湧現,并確定不理想的能力永不湧現?
這些問題與人工智能的安全和對齊息息相關,因為湧現的能力預示着更大的模型可能有一天會在沒有警告的情況下獲得對危險能力的掌握,這是人類不希望發生的。
在最新的一篇論文中,斯坦福大學的研究者對 LLM 擁有湧現能力的說法提出了質疑。
論文:https://arxiv.org/pdf/2304.15004.pdf
具體而言,此處的質疑針對的是在特定任務中模型輸出作為模型規模的函數而發生的湧現和不可預測的變化。
他們的懷疑基于以下觀察:似乎隻有在非線性或不連續地擴充任何模型的 per-token 錯誤率的度量下,模型才會出現湧現能力。例如,在 BIG-Bench 任務中,>92% 的湧現能力是這兩個度量下出現的:
這就為 LLMs 的湧現能力的起源提出了另一種解釋的可能性:盡管模型族的 per-token 錯誤率會随着模型規模的增加進行平滑、持續且可預測地變化,但看似尖銳和不可預測的變化可能是由研究者選擇的測量方法引起的。
也就是說,湧現能力可能是一種海市蜃樓,主要是由于研究者選擇了一種非線性或不連續地改變 per-token 錯誤率的度量,部分原因是由于擁有太少的測試資料,不足以準确估計較小模型的性能(進而導緻較小的模型看起來完全不能執行任務),另一部分原因是由于評估了太少的大規模模型。
為了闡述這種解釋方式,研究者将其作為一個簡單的數學模型,并證明它是如何從數量上再現為支援 LLM 的湧現能力而提供的證據。然後,研究者以三種互補的方式檢驗了這種解釋:
1. 使用 InstructGPT [24]/GPT-3 [3] 模型系列,根據替代假說做出、測試并确認三個預測。
2. 對先前的一些結果進行了元分析,并表明在任務名額 - 模型家族三聯體的空間中,出現的能力隻出現在某些名額上,而不是任務上的模型家族(列)。該研究進一步表明,在固定的模型輸出上,改變度量會導緻湧現現象的消失。
3. 故意在不同架構的深度神經網絡中誘導出多個視覺任務的湧現能力(這在以前從未被證明過),以顯示類似的度量選擇如何誘導出看似湧現的能力。
檢驗一:InstructGPT/GPT-3 模型系列分析
研究者選擇了 GPT 系列模型進行進一步分析,原因在于它是可公開查詢的,這一點和其他模型系列不同(例如 PaLM、LaMDA、Gopher、Chinchilla)。在此前的研究中,GPT 系列模型被認為在整數算術任務中展示出湧現能力。此處,研究者也選擇了整數算術這一任務。
圖 2: 大型語言模型的湧現能力是研究者分析的創造物,而不是模型輸出随規模變化的根本性變化。
正如第 2 節中用數學和圖表解釋的那樣,研究者提出的替代解釋可以預測出三個結果:
1. 随着模型規模提升,如果将度量從非線性 / 不連續的度量(圖 2CD)換成線性 / 連續的度量(圖 2EF),那麼應該會有平滑的、連續的、可預測的性能提升。
2. 對于非線性的度量,如果通過增大測試資料集的大小而提升所測模型性能的分辨率,那麼應該能讓模型得到平滑的、連續的、可預測的提升,并且該提升的比例與所選度量的可預測的非線性效應是相對應的。
3. 無論使用什麼度量名額,提升目标字元串長度都應該會對模型性能産生影響,該影響是長度為 1 的目标性能的一個函數:對于準确度是近乎幾何的函數,對于 token 編輯距離是近乎準線性的函數。
為了測試這三個預測結論,研究者收集了 InstructGPT/GPT-3 系列模型在兩個算術任務上的字元串輸出結果:使用 OpenAI API 執行 2 個兩位數整數之間的兩樣本乘法以及 2 個四位數整數之間的兩樣本加法。
圖 3:随着模型規模提升,改變度量可以為性能帶來平滑、連續、可預測的改變。
從左至右:數學模型,2 個兩位數整數乘法任務, 2 個四位數整數加法任務。上方的圖是使用一個非線性度量(如準确度)而測得的模型性能,可看到 InstructGPT/GPT-3 系列模型的性能在目标長度更長時顯得銳利和不可預測。而下方的圖是使用一個線性度量(如 token 編輯距離)而測得的模型性能,此系列模型表現出了平滑的、可預測的性能提升,這是研究者宣稱的湧現産生的能力。
預測:湧現能力線上性度量下會消失
在這兩個整數乘法和加法任務上,如果目标字元串的長度是 4 或 5 位數字并且性能的度量方式是準确度(圖 3 上一行圖),那麼 GPT 系列模型會展現出湧現的算術能力。但是,如果将一個度量從非線性換成線性,同時保持模型的輸出固定,那麼該系列模型的性能會得到平滑、連續和可預測的提升。這就确認了研究者的預測,由此表明銳利和不确定性的來源是研究者所選擇的度量,而非模型的輸出的變化。還可以看到,在使用 token 編輯距離時,如果将目标字元串的長度從 1 增大至 5,那麼可預見該系列模型的性能會下降,并且下降趨勢是近乎準線性的,這符合第三個預測的前半部分。
預測:湧現能力随着更高的分辨率評估的出現而消失
接下來是第二個預測:即使是用準确度等非線性度量,更小模型的準确度也不會為零,而是高于偶然性的非零值,其比例是與選擇使用準确度為度量相對應的。為了提升分辨率,以進一步能準确估計模型準确度,研究者還生成了其它一些測試資料,然後他們發現:不管是在整數乘法任務上還是在整數加法任務上,InstructGPT/GPT-3 系列的所有模型都得到了超過偶然性的正值準确度(圖 4)。這驗證了第二個預測。可以看到,随着目标字元串長度增大,準确度會随目标字元串的長度而呈現近乎幾何式的下降,這符合第三個預測的後半部分。這些結果還表明研究者選擇的準确度會産生一些我們應該能預料到的(近似)效果,即随目标長度而近乎幾何式地衰減。
圖 4:使用更多測試資料集得到了更好的準确度估計,這揭示出性能的變化是平滑的、連續的和可預測的。
從左至右:數學模型,2 個兩位數整數乘法任務, 2 個四位數整數加法任務。通過生成更多測試資料來提升分辨率,揭示出即使是在準确度度量上,InstructGPT/GPT-3 系列模型的性能也是超出偶然結果的,并且其在兩種湧現能力上的提升是平滑的、連續的和可預測的,這兩種湧現能力的結果在定性上是與數學模型相符的。
檢驗二:模型湧現的元分析
由于 GPT 系列模型是可以公開查詢使用的,是以可以對它們進行分析。但是,其它一些也有人聲稱具備湧現能力的模型(比如 PaLM、Chinchilla、Gopher)卻并不是公開可用的,它們生成的輸出也沒有公開,這意味着研究者在分析已發表結果時是受限的。研究者基于自己提出的替代假設給出了兩個預測:
第一,在「任務 - 度量 - 模型系列」三元組的「群體層面(population level)」上,當選擇使用非線性和 / 或非連續度量來評估模型性能時,模型應當會在任務上表現出湧現能力。
第二,對于展現出了湧現能力的特定「任務 - 度量 - 模型系列」三元組,如果将度量改變成線性和 / 或連續度量,那麼湧現能力應該會被消除。
為了測試這兩個假設,研究者調查了聲稱在 BIG-Bench 評估套件上湧現出的能力,因為在該套件上的基準是公開可用的,并且也有很好的文檔。
預測:湧現能力應該主要出現在非線性 / 非連續度量上
為了測試第一個預測,研究者分析了在哪些名額上,不同的「任務 - 模型系列」配對是否會出現湧現能力。為了确定一個「任務 - 度量 - 模型系列」三元組是否可能展現出湧現能力,他們借用了論文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定義。令 y_i ∈ R 表示模型大小為 x_i ∈ R 時的模型性能,并使得 x_i
結果研究者發現,BIG-Bench 使用的大多數度量中沒有表現出湧現能力的「任務 - 模型系列」配對:在人們偏好的 39 個 BIG-Bench 度量中,至多 5 個展現出了湧現能力(圖 5A)。這 5 個大都是非線性的 / 非連續的,如精确字元串比對、多選擇分級、ROUGE-L-Sum。值得注意的是,由于 BIG-Bench 通常使用多項度量來評估模型的任務表現,是以在其它度量下缺乏湧現能力這一現象說明:當使用其它度量來評價模型輸出時,湧現能力并不會出現。
由于湧現分數僅表明有湧現能力,是以研究者還進一步分析了論文《137 emergent abilities of large language models》中人工标注的「任務 - 度量 - 模型系列」三元組。人工标注的資料表明 39 個度量中僅有 4 個表現出了湧現能力(圖 5B),并且它們中的 2 個就占到了所宣稱的湧現能力的 92% 以上(圖 5C)。多選擇分級和精确字元串比對。多選擇分級是非連續的,精确字元串比對是非線性的(在目标長度度量上的變化是近乎幾何式的)。總體而言,這些結果說明湧現能力僅出現在非常少量的非線性和 / 或非連續度量上。
圖 5:僅有少數度量會出現湧現能力。(A) 在人們偏好的 39 個 BIG-Bench 度量中,至多隻有 5 個度量上可能出現了湧現能力。(B) 所引論文中人工标注的資料表明僅有 4 個人們偏好的度量表現出了湧現能力。(C) 湧現能力中 > 92% 都出現在以下兩個度量之一上:多選擇分級和精确字元串比對。
預測:如果替代非線性 / 非連續度量,湧現能力應該會被消除
對于第二個預測,研究者分析了前文所引論文中人工标注的湧現能力。他們關注的是 LaMDA 系列,因為其輸出可通過 BIG-Bench 擷取,而其它模型系列的輸出無法這樣擷取。在已經發表的 LaMDA 模型中,最小的有 20 億個參數,但 BIG-Bench 中的許多 LaMDA 模型都小很多,而且研究者表示由于無法确定這些更小模型的來源,是以沒有在分析中考慮它們。在分析中,研究者認定了在多選擇分級度量上 LaMDA 在哪些任務上展現出了湧現能力,然後他們提出了問題:當使用另一個 BIG-Bench 度量 Brier 分數時,LaMDA 能否在同樣的任務上展現出湧現能力。Brier 分數是一套嚴格适當(strictly proper)的評分規則,其度量的是互斥結果的預測;對于一個二進制結果的預測,Brier 分數簡化成了結果及其預測機率品質之間的均方誤差。
研究者發現,當非連續度量多選擇分級變成連續度量 Brier 分數時(圖 6),LaMDA 的湧現能力消失了。這進一步說明湧現能力的成因并非是随規模增長而導緻的模型行為的本質變化,而是對非連續度量的使用。
圖 6:在任務和模型系列保持不變的前提下改變 BIG-Bench 度量會導緻湧現能力消失。上一行:當使用的是一個非連續度量(多選擇分級)時,LaMDA 模型系列展現出了湧現能力。下一行:當使用的是一個連續的 BIG-Bench 度量(Brier 分數)時,LaMDA 模型系列在同樣任務上不再有湧現能力。
檢驗三:誘導 DNN 出現湧現能力
研究者的觀點是可以通過度量的選擇來誘導模型産生湧現能力;為了證明這一點,他們展示了如何讓不同架構(全連接配接、卷積、自注意力)的深度神經網絡産生湧現能力。這裡研究者重點關注的是視覺任務,原因有二。第一,人們現在主要關注大型語言模型的湧現能力,因為對于視覺模型而言,目前還沒有觀察到模型能力從無突然轉變到有的現象。第二,某些視覺任務用大小适中的網絡就足以解決,是以研究者可以完整建構出跨多個數量級規模的模型系列。
卷積網絡湧現出對 MNIST 手寫數字的分類能力
研究者首先誘導實作 LeNet 卷積神經網絡系列湧現出分類能力,訓練資料集是 MNIST 手寫數字資料集。這個系列展現出了随參數數量增長,測試準确度平滑提升的現象(圖 7B)。為了模拟有關湧現的論文中使用的準确度度量,這裡使用的是子集準确度(subset accuracy):如果該網絡從 K 個(獨立的)測試資料中正确分類出了 K 個資料,那麼該網絡的子集準确度為 1,否則為 0。基于這一準确度定義,在 K 從 1 增長到 5 的設定中,該模型系列展現出了「湧現」能力,進而能夠正确分類 MNIST 數字集,尤其是結合了模型大小的稀疏采樣時(圖 7C)。這個卷積系列的湧現分類能力在定性分析上符合已發表論文中的湧現能力,比如在 BIG-Bench 的地形測繪任務上的結果(圖 7A)。
圖 7:在卷積網絡中誘導出湧現的 MNIST 分類能力。(A) 一篇已發表論文中的基于 BIG-Bench 地形測繪任務的湧現能力。(B) 在 MNIST 上訓練的 LeNet 表現出:随模型參數數量增長,測試準确度展現出預測的、普遍的、S 形的增長。(C) 當把準确度重新定義成從 K 個獨立測試資料中正确分類出 K 個時,這個新定義的度量會誘導出一種似乎在預料之外的變化。
非線性自動編碼器在 CIFAR100 自然圖像集上湧現出重建能力
為了凸顯出研究者所選度量的銳利度是湧現能力的原因,并且為了表明這種銳利度不僅限于準确度等度量,研究者又誘導在 CIFAR100 自然圖像集上訓練的淺度(即單隐藏層)非線性自動編碼器湧現出重建圖像輸入的能力。為此,他們刻意定義了一個新的用于衡量模型能力的不連續度量,該度量為平方重建誤差低于固定門檻值 c 的測試資料的平均數量:
其中 I (・) 是一個随機訓示變量,x^n 是自動編碼器對 x_n 的重建。研究者檢視了自動編碼器瓶頸單元的數量,然後發現随模型規模增長,網絡的均方重建誤差會表現出平滑的下降趨勢(圖 8B),但如果使用新定義的重建度量,對于標明的 c,這個自動編碼器系列在重建該資料集上展現出的能力是銳利的和幾乎不可預測的(圖 8C),這個結果在定性分析上符合已發表論文中的湧現能力,比如 BIG-Bench 中的 Periodic Elements(周期性元素)任務(圖 8A)。
圖 8:在淺度非線性自動編碼器中誘導出湧現的重建能力。(A) 一篇已發表論文中的基于 BIG-Bench 周期性元素任務的湧現能力。(B) 在 CIFAR100 上訓練的淺度非線性自動編碼器展現出了平滑下降的均方重建誤差。(C) 使用新定義的重建度量(公式 2)誘導出了不可預測的變化。
自回歸 Transformer 在 Omniglot 字元集上湧現出了分類能力
接下來是 Transformer 的湧現能力,其使用的是自回歸方法來分類 Omniglot 手寫字元。研究者使用的實驗設定是類似的:Omniglot 圖像先由卷積層嵌入,然後以 [嵌入圖像,圖像類别标簽] 配對組成序列的方式輸入僅解碼器的 Transformer,而該 Transformer 的訓練目标是預測 Omniglot 類别标簽。研究者是在長度為 L ∈ [1, 5] 的序列上測量圖像分類性能,同樣是通過子集準确度來度量:如果所有 L 圖像都分類正确(圖 9B)則子集準确度為 1,否則為 0。Causal Transformer 在正确分類 Omniglot 手寫字元任務上似乎展現出了湧現能力(圖 9C),該結果在定性分析上符合已發表論文中的湧現能力,比如大規模多任務語言了解(圖 9A)。
圖 9:在自回歸 Transformer 中誘導出湧現的分類能力。(A) 一篇已發表論文中基于 MMLU 基準的湧現能力。(B) 随模型參數增多,使用自回歸方法來分類 Omniglot 手寫數字的 Transformer 的測試準确度也表現為增長。(C) 當将準确度重新定義為正确分類序列中的所有圖像時,該名額更難被預測,這似乎說明誘導出了湧現能力。