【重磅】OpenAI最新解密，ChatGPT的本質是無損壓縮器

費斌傑熵簡科技CEO

作者 | 費斌傑熵簡科技CEO

自從去年12月ChatGPT問世以來，AI的發展正式進入快車道，整個行業開始“按日疊代”。從1957年以來，人類在經曆了數輪AI浪潮後，這次通用人工智能（AGI）是真的要來了。

我們團隊在2月發表了對ChatGPT技術原理的深度剖析，得到了業内專家朋友們的廣泛認可。但随着研究的深入，越來越多的問題浮出水面：

ChatGPT強大的一個重要原因是大語言模型的湧現能力（Emergent Abilities），那麼湧現能力究竟為何産生呢？

GPT-5會有哪些意想不到的性能表現？

AGI會走向何方，對社會經濟活動又會産生怎樣的影響？

在這篇文章中，我們針對以上問題進行深入探讨，并且給出盡可能詳實的分析過程。本文濃縮了我們團隊的研究成果，共分為以下四個部分：

大語言模型的本質：性能強大的無損壓縮器

視覺資訊是知識的富礦：從文本走向多模态

大資料時代的資料荒：運用合成資料破局

AGI對人類社會經濟活動影響：展望與思考

寫在前面：熵簡科技是一家專注于幫助資管機構實作投研數字化的科技公司，主要客戶包括中金、中信、廣發、建投、國信、招商、華夏、嘉實、銀華、博時、彙添富、興全、易方達等證券與基金公司。我是熵簡科技的創始人費斌傑，但在寫下這篇文章的時候，我更多是純粹作為一個在新技術浪潮下，既興奮又緊張的見證者和參與者，盡可能客觀地評述分析這項新技術對我們行業會帶來怎樣的影響與沖擊。以下分享是我們熵簡團隊的研究成果，LLM技術發展日新月異，目前時點的分析難免錯漏，歡迎各位指正。

大語言模型的本質：性能強大的無損壓縮器

在最近OpenAI的學術分享會中，Jack Rae提出了一個重要的論斷：大語言模型的本質，其實是一個性能強大的資料無損壓縮器。

LLM = Compression

這個論斷并不是很直覺，但卻揭開了“通用人工智能”非常重要的一角，值得高度重視。為了讓大家了解這個觀點，我們從“學習”這件事本身來探讨。

上個世紀以來，人類普遍認為“學習”是一種人類特有的才能，機器無法真正地掌握“學習能力”。随着深度神經網絡技術的發展，人們通過建構“人工神經元”來模拟大腦中的“生物神經元”，進而使得機器開始具備一定的學習能力。

圖：生物神經元（左）與人工神經元（右）對比

而現在，OpenAI得出了關于“學習”的最新結論： “學習”這件事本身，可以了解為對有效資訊進行無損壓縮的過程。

為了更好地了解這個觀點，讓我們來做一個思想實驗。假設我們需要搭建一個模型，用來處理英譯中的翻譯任務。

最簡單粗暴的方式，就是列舉出每個英文單詞對應的中文，即rule-based mapping。假設我們枚舉完了所有英文單詞的中文對照表，寫出了一本1000頁的詞典。

但通過這本詞典，我們真的能夠有效完成所有英譯中的翻譯任務嗎？答案是否定的。因為基于規則的映射系統是非常脆弱的，隻要在翻譯過程中遇到一個之前沒有遇到過的新單詞，系統就崩潰了。

是以，這個模型的翻譯性能是很弱的，可以了解為“該模型沒有真正學會翻譯”。

重點來了，現在請你把這本1000頁的詞典，“無損壓縮”成一本200頁的手冊。字數減少了，但是資訊量不能少，是以你不能簡單地從1000頁中抽取200頁構成一本“小詞典”，而需要通過對資料進行高維編碼，進而實作無損壓縮。

經過壓縮後的這本200頁的手冊中，不再是簡單的單詞映射，而是包含了主謂賓、定狀補、虛拟語氣、時态、單複數在内的英語文法。相比于一本“詞典”來說，它更像是一本“教材”。

圖：降低任務描述長度等價于增加對任務的了解

注意，在這個壓縮的過程中，“學習”作為一種隐式的過程，起到了知識編碼的作用。通過把一本1000頁的詞典壓縮成一本200頁的手冊，模型“學會”了英語文法，掌握了英譯中的知識。通過這個例子，不難發現：學習的本質，可以了解為對有效資訊進行無損壓縮的過程。壓縮率越大，學習的效果就越好。

根據OpenAI的最新觀點，基于GPT的大語言模型的是性能卓越的資料壓縮器。語言模型的本質，是不斷預測下一個詞的機率分布，進而完成生成式任務。

但是從“無損壓縮”的角度來看，如果模型對下一個詞的預測更加準确，就意味着其對知識的了解更深，進而獲得對這個世界更高的分辨率。随着模型規模的提升，基于資訊熵計算出的壓縮率也會逐漸提升，這就解釋了為什麼模型的性能會随着規模的增加而增加。

而提升模型的壓縮率并不隻有 “增加規模”這一種方法，正如Jack Rae所言：Scaling is not all you need。更好的算法架構、基于Plugin的工具內建、合成資料的運用都能夠有效提升模型的壓縮率，進而實作模型性能的進一步提升。

圖：提升模型壓縮率的幾種方法

視覺資訊是知識的富礦：從文本走向多模态

既然大語言模型發展的目标，是不斷提升對有效資訊的壓縮率。那麼自然地，如何擷取盡可能多的有效資訊，就成為了一個重要命題。

人類是一種擁有語言能力的視覺動物，我們大腦皮層中約有三分之一的區域是用于視覺資訊解析的。是以，視覺資訊是人類知識的富礦。

圖：大腦皮層中的視覺信号中樞

舉個例子，我們都知道“太陽從東邊升起，西邊落下”，這是一個常識。但如果分析一下我們是如何學到這個知識的，我相信絕大多數人是通過眼睛親眼看到的，而不僅僅是通過書本學習到的。

推而廣之，視覺資訊往往是人類知識的源頭。由于人類具備語言和寫作能力，人們會把通過視覺擷取到的資訊慢慢地轉變為文本形态傳播出來。

是以，如果把人類已獲得的全部知識看作一座冰山，那麼以“文本”為載體的資料隻是冰山一角，而以“圖像”、“視訊”為載體的資料才是人類知識真正的富礦。這也是OpenAI的GPT-5會基于海量網際網路視訊進行學習的原因。

具體而言，如果給模型看大量的天文觀測視訊，模型有可能學習出一個隐式的開普勒定律；給模型看大量的帶電粒子運動軌迹，模型可能會學習出洛倫茲力的數學表達；當然，我們也可以更大膽一些，如果給模型學習強子對撞機的海量實驗資料，模型是否可以解開希格斯玻色子的秘密，進而解答物質的“品質”之謎，這一切都相當值得期待。

圖：基本粒子模型與上帝粒子

大資料時代的資料荒：運用合成資料破局

雖然人類社會早已進入了大資料時代，全球經濟活動産生了大量資料資産，但是LLM所需的訓練集膨脹速度更快。根據預測，到2026年文本資料将被訓練完，圖像資料将在2040年左右用完。

圖：大語言模型對網際網路存量資料消耗的預測

這對于“大力出奇迹”的大語言模型來說，并不是個好消息。如果訓練集體量不夠，模型便無法繼續scaling up，進而不斷提升性能天花闆。

這個時候， “合成資料”成為了重要的破局方法。顧名思義，“合成資料”（Synthetic Data）指的是通過算法生成的訓練集，而非從現實世界中采集到的樣本。

根據Gartner的預測，2026年模型訓練資料中的50%将由合成資料構成；2030年合成資料的品質将全面超過人類标注的真實資料。

圖：Gartner對合成資料發展的預測

OpenAI在GPT-4的技術文檔中重點提到了合成資料的應用，可見OpenAI對該領域的重視。

圖：GPT-4技術報告中對合成資料應用的探讨

更進一步來看，如果合成資料的品質能夠全面超越人類标注的品質，那麼未來AGI便可以自我疊代，進化的速度會大幅提升。到這時，人類可能就成為AGI的啟動腳本（Boot Loader）了。

這不禁讓我聯想到馬斯克曾在2014年做出的預言。他認為從“物種進化的尺度”來看，以人類為代表的“碳基生命”可能隻是以“AI”為代表的“矽基生命”的啟動腳本。

這個預言令人毛骨悚然。放在14年那會兒，絕大部分人會認為這是危言聳聽。但是當下我們再回頭審視這個判斷，不難發現這與“合成資料”的發展目标不謀而合。

合成資料領域的突破，可能成為AGI跨過奇點的重要裡程碑，讓我們拭目以待。

圖：Musk在14年對AI發展的判斷

AGI對人類社會經濟活動影響：展望與思考

在剛結束的GTC大會上，NVIDIA的CEO黃仁勳将ChatGPT的誕生類比為移動網際網路的iPhone時刻。但從人類科技發展史的尺度來看，我認為 ChatGPT的誕生更像是拉開了“第四次工業革命”的序幕，會帶來社會生産力和生産關系的質變。

雖然有點不恰當，但如果把人類看作一台“生物化學計算機”，我們不妨比較一下人類與AGI的效率異同：

首先，從 “通信效率”的角度來看，人類之間的資料傳輸主要依靠交流，而交流的本質是以空氣為媒介的機械波。與此相對，AGI之間的資料傳輸則主要通過GPU之間的NVLink，資料傳輸的帶寬顯著提升。

其次，從 “工作效率”的角度來看，人類受限于生物體内複雜的免疫機制、神經元修複機制等原理，需要保持充足的睡眠，才可以換取白天良好的工作狀态。但是AGI隻需要有充足的能源供給，便可以做到7*24的高強度作業，工作效率顯著提升。

再次，從 “協作效率”的角度來看，由100個人組成的團隊整體的工作效率往往會低于10人小組産出總量的10倍。随着組織人員規模的增加，人均産出不可避免的下降，需要通過“富有經驗的管理藝術”才能激發團隊協作的活力。相反，對于AGI來說，增加運算節點便可以擴大産能，并不會出現邊際效用遞減的管理與協作難題。

圖：人工智能與人類智能的發展曲線

以上分析了相比于人類而言，AGI的生産力優勢。但是人類在以下幾個重點方面依然具備着不可替代的價值：

首先，雖然AGI在知識的廣度上會遠超人類，但是在具體領域的知識深度上，人類目前依然占據優勢。

以金融投資為例，一位資深的投資經理可以根據不完整的市場資訊做出模糊推斷，進而獲得超額收益；以科學研究為例，一位優秀的科學家可以從看似無關緊要的實驗誤差中推斷出全新的理論體系。這些都是目前AGI難以企及的。

其次，社會經濟活動的運轉，高度依賴于人與人之間的“信任”，這種信任是AGI難以取代的。比如當你去醫院看病的時候，即使AGI能夠根據你的症狀描述做出相當準确的診斷，你依然大機率會拿着診斷結果去咨詢邊上的人類醫生，尋求一個值得信任的診療建議。類似的“信任機制”構成了醫療、教育、金融等領域中經濟活動的重要基石。

随着AGI的發展，許多經濟活動的遊戲規則會悄然發生改變，而這個規則改變的契機，則會以AGI在該領域超過人類中的最強者作為分界線，正如AlphaGo的誕生徹底改變了圍棋界的規則一樣。

結語

這是最好的時代，也是最壞的時代。悲觀者可能永遠正确，但确實毫無意義。

縱觀曆史，人類科技史的發展并不是連續的，而是跳躍的。或許我們正在經曆的正是一次人類科技水準的跳躍，無論如何，能夠親眼見證并參與其中，我們都是幸運的。

最後，分享一句我特别喜歡的話，這是OpenAI的CEO Sam Altman在30歲生日時給自己的人生建議：

The days are long but the decades are short.

參考文獻

[1] Power, Alethea, et al. "Grokking: Generalization beyond overfitting on small algorithmic datasets." arXiv preprint arXiv:2201.02177 (2022).

[2] Bubeck, Sébastien, et al. "Sparks of artificial general intelligence: Early experiments with gpt-4." arXiv preprint arXiv:2303.12712 (2023).

[3] Eloundou, Tyna, et al. "Gpts are gpts: An early look at the labor market impact potential of large language models." arXiv preprint arXiv:2303.10130 (2023).

[4] Wu, Shijie, et al. "BloombergGPT: A Large Language Model for Finance." arXiv preprint arXiv:2303.17564 (2023).

[5] Liang, Percy, et al. "Holistic evaluation of language models." arXiv preprint arXiv:2211.09110 (2022).

[6] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

[7] Kaplan, Jared, et al. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).

[8] Zhou, Yongchao, et al. "Large language models are human-level prompt engineers." arXiv preprint arXiv:2211.01910 (2022).

[9] Wei, Jason, et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).

[10] Zellers, Rowan, et al. "HellaSwag: Can a machine really finish your sentence?." arXiv preprint arXiv:1905.07830 (2019).

[11] Barocas, Solon, Moritz Hardt, and Arvind Narayanan. "Fairness in machine learning." Nips tutorial 1 (2017): 2017.

[12] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

[13] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

本文來自微信公衆号“熵簡科技Value Simplex”（ID:Shangjian-Tech），作者：熵簡CEO|費斌傑，36氪經授權釋出。

【重磅】OpenAI最新解密，ChatGPT的本質是無損壓縮器

大語言模型的本質：性能強大的無損壓縮器

視覺資訊是知識的富礦：從文本走向多模态

大資料時代的資料荒：運用合成資料破局

AGI對人類社會經濟活動影響：展望與思考

結語

繼續閱讀

對話前OpenAI科學家：愛、滅亡和人工智能

OpenAI聯創Karpathy愛上羊駝:純C代碼實作嬰兒Llama2,已攬1.6k星

3個批量的圖檔無損壓縮工具，自定義壓縮體積大小

【安卓版ChatGPT今日全球上線！】AI奇點網7月26日報道丨來自OpenAI官方推特的消息，當地時間7月25日晚間，

準确性極低！OpenAI下架AI檢測器，ICML傑出論文被打臉

【編碼能力超越ChatGPT！揭秘華為新一代代碼大模型】AI奇點網7月30日報道丨去年7月，華為諾亞方舟實驗室旗下的語音

谷歌新AI阿法星，C位出道爆錘人類職業遊戲玩家！

【中文生成竟然比英文貴兩倍！ChatGPT處理不同語言運算成本差距極大】AI奇點網7月31日報道丨牛津大學最新的一項研究

OpenAI關閉内容檢測工具，借助密碼學，C2PA正在成為新的替代者

3個可以批量無損壓縮視訊的工具，壓縮速度快體積小

OpenAI假設被推翻！大模型輸小模型，Llama 2訓練與GPU計算關聯度

被黃仁勳和OpenAI接連點名，這家向量資料庫公司終迎“iPhone時刻”｜年度AI對話

java調用ChatGPT的API接口

我去，AI開花結果的時代，偏逢[我想靜靜]微軟、華為之類的神對手，谷歌硬是沒過上幾天安心的日[捂臉]子！年初的時候，Ch

Meta硬剛OpenAI，國産“小模型”官宣開源，“百模大戰”走向何方？

OpenAI 的 GPT 簡化版：函數調用