周楓：o1是大模型發展的裡程碑時刻，打開了邏輯性思維大門的一條縫隙

背景大家應該都了解，OpenAI o1-preview上周推出，達到了數理推理（reasoning）的全新水準，比如數學奧林匹克IMO美國資格賽AIME達到了前500水準，CodeForces程式設計競賽社群89%排名，等等。以下是我這兩天關于o1-preview的一些筆記，和大家分享。

1. 思維鍊

OpenAI在o1-preview的介紹文章"Learning to Reason with LLMs"中說（我譯成中文）：

“我們的大規模強化學習算法教會模型如何在高資料效率的訓練過程中有效地使用其思維鍊（chain of thought）進行思考。我們發現，随着更多的強化學習（訓練時間計算）和更多的思考時間（測試時間計算），o1的性能不斷提高。擴充這種方法的限制與LLM預訓練的限制有很大的不同，我們正在繼續研究它們。”

思維鍊（CoT）本身是行業熟悉的成熟方法了，來自2022年的"Large Language Models are Zero-Shot Reasoners"這篇文章，意思就是通過加入“讓我們一步步思考”這樣的提示，可以從大模型得到品質更好的數理推理結果。這個也是在有道的子曰教育模型中使用廣泛的方法。

雖然"讓我們一步步思考"這樣一句經常和做題的國小生講的話有點搞笑，但CoT背後的直覺很有道理，如果你觀察大模型的計算過程，會了解到每生成一個token，背後大模型完成的計算量是基本固定的，那麼對于數學題這樣“費腦子”的問題，“慢慢回答”，多說一些話，也就自然等于“更多思考”。讓模型分步回答，輸出更多的token，也就是融入了更多的思考，可以了解可以得到更好的結果。這是思維鍊這個方法的有效性背後的基本邏輯。

從目前公開資訊來看，除了思維鍊之外，o1主要還依賴增強學習（reinforcement learning），增強學習是讓軟體自主做決定以取得最佳結果的機器學習方法，它很特别的特點是不需要有人教，或者說需要的回報非常少，隻需要外部有一個評分的函數，就是判斷做成沒做成就可以了，而不需要外界告訴系統怎麼做。增強學習RL以前主要用于機器人領域（比如雙足行走），而這些年來RL和LLM的結合現在越來越多，o1是一個最新的例子。

2. 系統1和系統2思維

思維鍊背後的思想，來自認知學和心理學的研究，2011年的Daniel Kahneman的《思考，快與慢》（Thinking, Fast and Slow）是讨論這個問題的一本好書（此書有中文版）。基本的背景是：人的思維可以分成兩個模式，“系統1”是快速、本能和情感思維，“系統2”是緩慢、仔細和邏輯性的思維。

是以從這個角度，可以認為在o1之前的大模型，總體上都是“系統1”思維為主。從系統的行為來說，就是得到一個問題後，就一邊想一邊說，想到哪裡是哪裡，并沒有一個回答問題之前的深度思考過程。這也解釋了為什麼在教育領域，之前的大模型強于文科，而弱于理科，就是因為思維偏直覺和情感，而在需要反複琢磨的邏輯思維上比較差。

對于這個問題，之前的LLM增強能力依靠不斷加大參數量，o1給出了一個另外的思路，就是在訓練階段和推理（inference）階段都加入增強學習和思維鍊，通過反複計算，來加強模型的數理推理能力。另外一個變化是和以前的模型相比，推理（inference）階段的計算占比加大，對于數理問題，這應該是一個必要的變化。

具體的算法OpenAI并沒有公布，行業内不少公司之前也都在探索類似的方向，而OpenAI是第一個出成果的團隊，相信一段時間後，o1的細節會更多被大家了解，國内外其它團隊也會有相關成果出來。

3. 一些例子

OpenAI自己給了一系列的o1的例子，比如下面這個簡單的“密文”解碼：

"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

模型成功解出了這是兩個字母ASCII碼取平均值得到一個明文字母（oy -> t, fj -> h）。

然後程式設計例子，寫了一個轉置矩陣的bash腳本，而GPT-4寫不出來。

X上面一些使用者給出了早期的評測結果，比如MMLU-Pro從79%提升到91%:

然後三分鐘解出了最近一次LeetCode周賽的全部三道題：

4. 成本

這套服務目前很貴，o1-preview100萬的tokens價格是15美元，與之對比，OpenAI便宜的模型GPT-4o mini（和GPT-3.5差不多）的價格是0.15美元/百萬tokens，也就是100倍的價格差距。

另外對于個人開發者來說，還有一個門檻是需要tier-5賬号，就是已經花過1000美元的賬号，才能通路o1-preview/o1-mini。OpenAI财技不錯。

另外，計價方法也有變化，OpenAI新增了“reasoning tokens”，就是在結果中不顯示，但是推理過程中用到的tokens，這個也會計入價格中。總體來說，就是目前這個模型能力特别，但價格很貴。

o1是大模型發展的一個裡程碑時刻，打開了“系統2思維”大門的一條縫隙，相信這個大門一旦打開，就不會再關上，全球AI社群一定會研發出更多的快速提升模型推理能力的創新方法來，大家繼續親曆曆史吧。

周楓：o1是大模型發展的裡程碑時刻，打開了邏輯性思維大門的一條縫隙

繼續閱讀

大模型頂流CP由甜轉虐：互相不滿，都找備胎，因為錢鬧不愉快

“雲嶺先鋒網”刊發中共永平縣委書記李德琦署名文章《永平：以改革思維打造“4233”基層治理新路徑》

Archetype AI釋出牛頓實體學大模型，從傳感器資料中學習實體原理

CNCC | 大模型下的多模态情感計算未來

“伏羲慧眼”大模型重磅釋出！擁有全球規模最大的眼科圖像資料庫

新車 | AI大模型上車，13項新增/27項優化，極氪009光輝OTA更新

AI日報：複旦、百度新模型可生成1小時長視訊；全新ChatGPT Windows版本上線；NotebookLM又上2個新功能

測繪通報 | 任萍：基于LOD1城市模型的噪聲資料可視化

終端AI分級标準落地，手機大模型“戰火”燒到了智能體

J Clin Invest丨楊偉莉/李世華/李曉江團隊利用猴模型揭示帕金森疾病新病理機制

大模型訓練遭投毒損失千萬美元？Anthropic發現LLM代碼庫暗藏bug

全市近千名青少年齊聚中海博，在航海、航空、建築三大模型競賽中一展身手

DeepMind聯合MIT開發Fluid，讓自回歸模型實作文生圖的大規模擴充

新時代新思維新境界新武立之六

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務