在對AI“審美疲勞”中，奇點悄悄來了......

自生成式AI爆火已有兩年，而近期進展似乎不盡人意，大模型鮮有突破性創新，應用層面也未出現殺手級應用，資本市場對“泡沫論”和估值過高争議不斷......人們仿佛對AI已經“祛魅”，AI發展真的變慢了嗎？

在質疑和期待聲中，周五“AI領頭羊”OpenAI釋出了一個名為MLE-bench的基準測試，專門用來測試AI Agent的機器學習工程能力，建立起一個衡量大模型機器學習能力的行業标準。

而這一标準的建立正是在o1亮相之後，上月OpenAI甩出一記重大更新，推理能力超越人類博士水準的o1系列模型面世，實作大模型在推理能力上的一次飛躍。

測試結果顯示，在MLE-bench的基準測試下，o1-preview在16.9%的競賽中獲得了獎牌，幾乎是第二名（GPT-4o，8.7%）的兩倍，是Meta Llama3.1 405b的5倍，也是claude 3.5的2倍。

值得一提的是，o1模型除了推理能力躍升，最關鍵突破是開啟新Scaling Law，同時形成所謂的“資料飛輪”，擁有可以進行“自我進化”的能力。

英偉達CEO黃仁勳此前表示，AI正在設計下一代AI，進展速度達到了摩爾定律的平方。這意味着在接下來的一到兩年内，将會看到驚人的、意想不到的進步。OpenAI創始人Altman直言AI新範式進步曲線變得更陡峭，擁有進化能力後可能更快速地實作向下一級的躍遷。

“自我進化”能力預示着AI發展“奇點”正加速到來，正如有分析指出，OpenAI現在對奇點的了解不僅僅是一種理論，而是作為一個非常真實的、可能成為現實的現象，尤其是通過AI智能體（Agents）來實作。

針對“AI發展是否真的變慢了”這一問題，從以上行業最新進展和科技大佬觀點來看，市場反而低估了AI發展斜率。

自我進化，邁向奇點

OpenAI在最新的論文中指出：

如果人工智能智能體能夠自主進行機器學習研究，它們可能會帶來許多積極的影響，例如加速醫療保健、氣候科學等領域的科學進步，加速模型的安全和對齊研究，并通過開發新産品促進經濟增長。智能體進行高品質研究的能力可能标志着經濟中的一個轉折。

對此，有分析了解稱：

OpenAI現在不再将奇點理論僅僅視為一種理論，而是作為一個非常真實的、可能成為現實的現象，尤其是通過智能體（agents）來實作。

在對AI“審美疲勞”中，奇點悄悄來了......

此外，OpenAI對o1的命名也展現了這一點，OpenAI将計數器重置為1，标志着開啟一段AI新紀元。而o1的最大突破不僅在于推理能力的提升，更在于擁有“自我學習”的能力，此外開啟新的Scaling Law。

最關鍵的突破是，o1擁有“自我進化”的能力，向通往AGI的路上邁出一大步。

前文提及o1在推理過程中會生成中間步驟，而中間步驟包含大量高品質的訓練資料，這些資料可以被反複利用進一步提升模型性能，形成不斷“自我強化”的良性循環。

正如人類的科學發展程序，通過提取已有的知識，挖掘出新的知識，進而不斷地産生新的知識。

英偉達進階科學家Jim Fan稱贊稱，o1未來發展會像飛輪快速運轉起來，就像AlphaGo自我博弈以提升棋藝：

Strawberry很容易形成“資料飛輪”，如果答案是正确的，整個搜尋軌迹就成為一個小型的訓練樣本資料集，其中包含正面和負面的回報。

這反過來會改進未來版本GPT的推理核心，就像AlphaGo的價值網絡——用來評估每個棋盤位置的品質，随着MCTS（蒙特卡洛樹搜尋）生成越來越精細的訓練資料而改進一樣。

o1模型還代表了大模型領域新範式的突破——開啟推理階段新Scaling Law。

AI領域的Scaling Law（縮放定律）規則，一般是指随着參數量、資料量和算力的增加，大模型的性能能夠不斷提高。然而，畢竟資料是有限的，AI出現越訓練越傻的迹象，Pre-Training（預訓練）帶來的scaling up邊際收益開始遞減。

o1在很大程度上突破這一瓶頸，通過post training(後訓練)的方式，增加推理過程和思考時間，同樣明顯提升了模型性能。

相對于傳統的預訓練階段scaling Law，o1開啟推理階段新Scaling Law，即模型推理時間越長，推理效果會更好。随着o1開啟大模型領域範式創新，會引領AI領域研究重點的轉向，行業從“卷參數”邁入“卷推理時間”的階段，MLE-bench的基準測試正展現了這一衡量标準的轉變。

随着大模型推理性能飛躍，晶片算力能力也将相應地更新，黃仁勳在9月的T-Mobile大會上，直接預告算力提速50倍，把o1模型的響應時間從幾分鐘縮短到幾秒：

最近，Sam提出了一個觀點，這些AI的推理能力将變得更加聰明，但這需要更多的算力。目前，在ChatGPT中的每個提示都是一個路徑，未來将在内部有數百個路徑。它将進行推理，進行強化學習，試圖為你創造更好的答案。

這就是為什麼在我們的Blackwell架構将推理性能提高了50倍。通過将推理性能提高50倍，那個現在可能需要幾分鐘來回答特定提示的推理模型，可以在幾秒鐘内回應。是以這将是一個全新的世界，我對此感到興奮。

在對AI“審美疲勞”中，奇點悄悄來了......

加速式地向前發展意味着“奇點正在到來”，正如Altman在此前釋出了一篇長文中稱，未來在醫療領域，超級智能可以幫助醫生更準确地診斷疾病，制定個性化的治療方案；在交通領域，可以優化交通流量減少擁堵和事故的發生；在教育領域，為每一位孩子配備AI學習夥伴，讓教育資源公平化。

市場可能低估了AI發展斜率

對于市場對AI的擔憂，業内大佬反駁稱，AI叙事節奏正在加速推進。

在Salesforce舉辦的一場活動上，黃仁勳表示：

科技走入正回報循環，AI正在設計下一代AI，進展速度達到了摩爾定律的平方。這意味着在接下來的一到兩年内，我們将會看到驚人的、意想不到的進步。

在上月的T-Mobile大會上，Altman直言AI新範式進步曲線變得更陡峭，将更快速地實作向下一級的躍遷；

新範式時刻曲線時間上變得更陡峭，模型無法解決的問題幾個月後就能解決；我認為現在的新推理模型類似于我們在GPT-2時期，你會在未來幾年内看到它發展到與GPT-4 相當的水準。在接下來的幾個月内，你也會看到顯著的進步，我們降從o1-preview更新到o1正式版。o1互動方式也将發生變化，不再隻是聊天。

從OpenAI五級AGI路線圖來看，我們正處于AGI level 2，Altman表示從L1到L2花了一段時間，但我認為L2最令人興奮的事情之一是它能夠相對快速地實作L3，預計這種技術最終将帶來的智能體将非常強大。

L1：聊天機器人（ChatBot），具有對話能力的AI；

L2：我們剛剛達到的推理者（Reasoner），像人類一樣能夠解決問題的AI；

L3：智能體（Agent），不僅能思考，還可以采取行動的AI系統；

L4：創新（Innovator），能夠協助發明創造的AI；

L5：組織者（Organization），可以完成組織工作的AI；

在對AI“審美疲勞”中，奇點悄悄來了......

微軟CTO斯科特在高盛大會上提到，AI革命比網際網路革命更快：

我不認為我們正在經曆收益遞減，我們正在取得進步，人工智能的崛起仍處于早期階段。我鼓勵人們不要被炒作沖昏頭腦，但人工智能正在變得越來越強大。我們所有在最前沿工作的人都可以看到，還有很多力量和能力未被釋放。

雖然人工智能革命和網際網路，以及智能手機的出現等以前的技術突破有相似之處，但這一次不同，至少在建設方面，所有這一切可能比我們在以前的革命中看到的發生得更快。

o1模型“自我進化”的原理是什麼？

具體來看，o1模型之是以表現如此驚豔，背後在于AI學會通過強化學習（RL）利用思維鍊（CoT）技術來處理問題。

所謂的思維鍊技術是指模仿人類思考過程，相比之前大模型的快速響應，o1模型在回答問題前會花時間進行深度思考，内部生成一個很長的思維鍊，逐漸推理并完善每個步驟。

有分析将其類比為《思考，快與慢》裡的系統二：

系統一：無意識地快思考，依賴于直覺和經驗，快速做出反應，例如刷牙、洗臉等動作。

系統二：深思熟慮，帶有邏輯性地慢思考，例如解決數學題或計劃長期目标等複雜的問題。

o1模型像是系統二，在回答問題前會進行推理，生成一系列思維鍊，而之前的大模型更像是系統一。

通過思維鍊式地拆解問題，在解答複雜問題過程中，模型可以不斷驗證、糾錯，嘗試新政策，進而顯著提升模型的推理能力。

o1模型另一個核心特征是強化學習，可以進行自主探索、連續決策。正是通過強化學習訓練，大模型學會完善自己的思考過程，生成思維鍊。

強化學習在大模型中的應用，是指智能體學習在環境中采取行動，并根據行動結果獲得回報（試錯和獎勵機制），進而不斷優化政策。而之前的大模型預訓練采用的是自監督學習範式，通常是設計一種預測任務，利用資料本身的資訊訓練模型。

簡而言之，以前的大模型是學習資料，o1更像是在學習思維。

通過強化學習和思維鍊的方式，o1不僅在量化的推理名額上有了顯著提升，在定性的推理可解釋性上也有了明顯改善。

不過，o1模型隻是在特定任務上取得了突破，在文本生成等偏文科向領域并不具備優勢，而且o1隻是将人的思維過程展現出來，尚不具備真正的人類思考和思維能力。

本文來自華爾街見聞，歡迎下載下傳APP檢視更多