谷歌DeepMind和著名大模型平台Anthropic的研究人員聯合推出了創新神經壓縮方法——Equal-Info Windows。

研究人員表示，随着ChatGPT、Gemini、Claude等大語言模型的參數、功能越來越複雜，其訓練成本呈指數級上升。如果能用神經壓縮的文本資料來訓練模型，在訓練和推理效率上帶來質的提升，同時也能更容易處理超長文本。

但直接使用神經壓縮資料，往往會生成不透明、不穩定的内容輸出。例如，通過算術編碼進行簡單的文本壓縮，并不能使大語言模型學習到有效的訓練知識。

而Equal-Info Windows将文本分割成多個視窗，每個視窗都壓縮到固定長度的比特流，每個視窗的資訊量大緻相等。這種創新方法能夠提供一種穩定的映射關系，使得壓縮後的文本資料更容易被大語言模型學習。

論文位址：https://arxiv.org/abs/2404.03626

視窗分割

首先，Equal-Info Windows通過“視窗分割”的方法将原始文本資料分割成一系列的連續字元序列，每個序列被視為一個獨立的視窗。

視窗的大小可以根據特定的需求進行随意調整，但通常是一個固定的長度，友善于後續的資料壓縮。

在Transformer架構的大語言模型中，自注意力機制需要在整個序列上計算，在長文本上是非常消耗時間和算力。

這種視窗分割方法有助于減少大語言模型在處理長距離依賴時的計算負擔，使模型可以專注于局部上下文進而提高處理速度和效率。

視窗壓縮

在獲得視窗分割資料後，通過“視窗壓縮”方法将每個分割後的視窗獨立壓縮到一個固定長度的比特串。這可以在在保持原始文本資訊的同時，盡可能減少所需的存儲空間和AI算力資源。

每個文本視窗首先被轉換為一個數值序列，通常将字元映射到它們在字元集中的角色辨別符。接着，這些數值序列被送入到算術編碼（AC）進行壓縮。通常這些算法通過學習文本中的符号頻率和模式來優化壓縮過程，進而實作高效的比特級壓縮。

在壓縮的過程中，研究人員訓練了M1和M2兩個模型。M1的主要作用是，将原始文本資料轉換為壓縮後的比特流。這一步驟是實作神經網絡壓縮的關鍵環節，使得後續的模型預訓練能夠在更緊湊的資料表示上進行。

M2模型則是學習如何從壓縮的比特流中恢複和了解原始文本的資訊。包括學習如何處理和解碼由M1模型生成的壓縮資料。

同時在推理階段，M2模型能夠基于壓縮輸入生成未壓縮的文本輸出。這意味着M2不僅能了解壓縮文本，還要能逆轉壓縮過程，還原出原始文本或生成新的文本序列。

為了評測該方法的性能，研究人員對比了Equal-Info Windows壓縮的文本和傳統字詞分割器（如SentencePiece）處理的文本。

結果顯示，盡管Equal-Info Windows在模型參數數量相同的情況下，其困惑度略高于子詞分割器，但在減少序列長度方面有明顯的優勢。這說明Equal-Info Windows能夠在較少的自回歸步驟中生成文本，進而降低了模型推理時的延遲。

此外，研究團隊還發現，Equal-Info Windows在處理長文本時表現非常出色。由于每個壓縮視窗都包含大緻相等的資訊量，大語言模型能夠更好地捕捉文本中的長距離依賴關系。這一點在處理文檔檢索和編碼問題等任務時尤為重要。