編輯：Aeneas 好困

【新智元導讀】就在剛剛，The Information曝出：OpenAI的草莓将于兩周内上線！收費疑似200刀一個月，最大的特色就是比其他模型多思考10到20秒。然而因為「狼來了」太多回，網友們忍不住吐槽：OpenAI現在就是個炒作公司。

最新消息，「草莓」将在兩周内釋出！

這一消息由外媒The Information曝出，據稱是兩位已經測試過草莓模型的人士透露的。

釋出時間比此前報道的秋季要早。

草莓跟其他模型的最大差別是啥呢？

答案是，更智能，但更慢、更貴。

而知名爆料人Jimmy Apples的說法是，一個模型（可能被稱為GPT-4.5）預計會在十月釋出。

與此同時，GPT-5很可能會在12月釋出，但保險起見，說2025年第一或第二季度釋出，是比較穩妥的。

在9月3日，Jimmy Apple還曾經艾特Sam Altman，戲谑地問道：「我耳邊的低語是真的嗎？我們終于要在十月做一些事了嗎？」

根據Jimmy Apple的說法，需要耐心的時代已經過去，現在，我們迎來了釋出的季節。

而AI大V「數字生命卡茲克」表示，自己的朋友發現ChatGPT Pro會員已經上線了，售價200美元每月。

他們推測，ChatGPT Pro會員，或許就是為即将上線的草莓而準備的。

不過根據此前的爆料，草莓本身的目的，似乎是為OpenAI的下一代大模型獵戶座生成更高品質資料。

是以也有人說，我們不必對草莓抱以過高期待。

草莓，比我們預期的更早？

據悉，兩位已經測試過草莓模型的人士透露，OpenAI計劃在兩周内将其作為ChatGPT服務的一部分釋出。

而在原先，The Information報道的釋出時間是在秋季。

這一次，報道中透露了一些新細節。

首先，雖然草莓是ChatGPT的一部分，但它是一個獨立的産品。

目前還不清楚它将如何推出，一種可能是将其包含這種驅動ChatGPT的AI模型的下拉菜單中，根據兩位人士的說法。

這就會讓草莓跟正常的服務有很大不同。

第二點，草莓和其他對話式AI最大的差別，就是它在響應之前會思考10到20秒，然後才回答問題。

多個網友現身說法，表示自己上周發現ChatGPT傳回某個響應時需要10秒才能加載，或許OpenAI已經在進行a/b測試了。

第三點，草莓的初始版本目前隻能接收和生成文本，而不能處理圖像，這也就意味着，它尚未像OpenAI的其他模型一樣實作多模态功能。

因為如今釋出的大多數LLM都是多模态的，這個缺陷對比之下就很顯著。

最後，就是定價問題了。

現在OpenAI的聊天機器人有免費的，也有分等級的訂閱價格。

草莓可能會有低價位和高價位的兩檔，前者會有速率限制，并且限制使用者每小時的最大消息數量；而更高價位的版本，響應的速度也會更快。

這種安排，當然也是希望讓更多使用者為新模型付費，就像此前OpenAI限制ChatGPT免費使用者消息數量一樣。

草莓會怎樣收費呢？

根據The Information此前的爆料，每月50、75、200、2000刀似乎都有可能。

一位知情人士稱，在OpenAI早期的内部讨論中，訂閱價格曾高達每月2000美元，但并未最終确定

如今看來，200美元/月的定價應該是沒跑了。

來源：數字生命卡茲克

The Information還預測，目前為ChatGPT付費（每月20美元）的客戶，會比免費使用者更早通路首個草莓模型。

處理複雜問題更拿手

據悉，草莓會比GPT-4o更擅長複雜的問題，或多步驟查詢。

目前，如果使用者想在ChatGPT中得到理想的答案，往往還需要輸入各種格外的prompt。

比如用「連貫思維提示」，讓ChatGPT通過中間推理步驟來得出答案。

而草莓可能會避免這種麻煩，讓使用者一步得到結果。

這也就意味着，草莓不僅在數學和編碼問題上會更好，還會更擅長主觀的商業任務，比如頭腦風暴一個産品營銷政策。

爆料人表示，草莓的思考步驟，會避免它出錯。

而多思考的那十秒到二十秒，會讓它更可能知道，何時要向客戶詢問後續問題，來完成對他們的解答。

多思考20秒是雞肋？

然而兩位人士透露，OpenAI還需要再解決一些問題。

比如，理論上講，草莓應該能夠在使用者提出簡單問題時，跳過其思考步驟。然而在實際應用中，模型并不總是這樣。

它可能會錯誤地花費過多時間，來回答那些其他OpenAI模型很快就能回答的問題。

用過草莓模型的人抱怨說，跟GPT-4o相比，草莓的回複隻是稍稍更好一些，但并沒有好到值得使用者去等10到20秒。

另外，OpenAI希望迎合使用者的這一特定偏好：在回答新問題前，草莓會記住并且整合與使用者先前的聊天記錄。

這個細節非常重要，比如如果使用者希望軟體代碼以某種格式書寫的時候，這種能力就非常有用。

然而令人沮喪的是，草莓并不總是能做到這一點。

網友吐槽：還要擠多久？

冷知識：距離OpenAI釋出GPT-4，已經過去了一年零六個月。而新模型的影子，至今還沒看到。

OpenAI的草莓，來來回回炒作了好幾遍。狼來了的故事來了太多次，網友們都快麻了。

别家都是要發模型就幹脆利落地發，隻有它把同一個話題來回來去地炒，就是不發真東西。

奧特曼之前曬出花園裡的草莓照，就曾一度引起軒然大波，然而最終卻無事發生，這種「謎語人」的操作難免令人生厭。

現在提起OpenAI，很多群衆的第一反應就是——

沒錯，它已經逐漸淪為「炒作」的代名詞。

更有網友做出梗圖，調侃道：OpenAI釋出新模型的姿勢是這樣的——

這樣的——

以及這樣的——

本來在大模型領域，OpenAI是遙遙領先的上司者。但如今，競争者們早已後來居上了。

上個月，谷歌就推出了AI語音助手，能夠靈活處理使用者的突然中斷和話題變化。

要知道，OpenAI在五月就首發了「Her」的功能，然而這個語音助手GPT-4o Voice随後卻推遲了釋出，原因是OpenAI在提高安全措施，確定模型拒絕不當内容。

如今正值草莓模型的釋出前期，可能OpenAI也在做類似的準備。

而最令人失望的一點其實是，跟前兩年的如火如荼相比，今年OpenAI的發展似乎已經停滞了。

與此同時，模型的計算量、參數大小、資料集大小，都紛紛遭遇瓶頸，開源模型和閉源模型的能力也在逐漸縮小。

是不是因為沒有不夠的GPU，是以我們現在依然離AGI如此遙遠？

如何破局？用RL

打破瓶頸的方法，如今各家都走到了同一路徑——Self-play RL。

在LLM領域，自我博弈理論看起來就像是AI回報

Claude 3.5就是基于Self-play RL做出的，是以代碼能力強到突出。

而我們都知道，草莓有一個重要作用，就是給下一代大模型合成資料，這裡面有個前提，就是它同樣是基于新範式Self-play做出的。

很多LLM的弱點就在推理能力上，而有些初創公司為了提高它們的推理能力，就采用了一種廉價的技巧，将問題分解為更小的步驟，盡管這些方法速度慢且成本高昂。

AlphaGo就是通過Self-play學習，擊敗了李世石

在草莓中，我們也看到了類似的思路。

用Self-play RL去驗證，自然就能讓草莓的數學和代碼能力上飛速暴漲。

同樣，付出的代價就是極高的推理成本，導緻它又貴、又慢。

但得到的結果，是極高的智能，或許啟發我們通往AGI的路線，就靠草莓這種思路了。

說起來，「草莓之父」，其實就是已經離職了的OpenAI的首席科學家Ilya Sutskever。

據悉，OpenAI的一些人認為Q*可能是OpenAI在AGI上取得的一個突破

在Ilya離職之前，OpenAI的研究人員Jakub Pachocki和Szymon Sidor，在Ilya的工作基礎上開發了一個新的數學求解模型Q*。

據稱，Q*解決的此前從未見過的數學題。

Ilya做出的突破，使OpenAI不再受限于擷取足夠的高品質資料來訓練新模型，而這，正是開發下一代模型的主要障礙。

另外，在去年Q*的前期準備中，OpenAI研究人員開發了一種被稱為「測試時計算」的概念變體，目的是提升LLM的問題解決能力。

這樣，LLM就會花更多時間考慮被要求執行的指令，或問題的各個部分。

當時，Ilya發表了一篇與這項工作相關的部落格，展示了模型如何解決了數個極有難度的數學問題。

比如在下面這道題中，GPT-4成功執行了一系列複雜的多項式分解。

基于這類技術做出的草莓，雖然更貴、更慢，但數學和推理的進步無疑是驚人的。

或許對于普通使用者，它未必是一個更值得付費的産品。

但對于需要高階能力的場景，草莓會更有發揮的餘地。

大佬猜測：谷歌DeepMind論文疑似揭示方法

有趣的是，Menlo風投負責人、前谷歌搜尋工程師Debarghya Das發推稱：Google DeepMind在最近一篇論文中提出的方法，可能就是OpenAI在Strawberry上用的。

論文提出，讓LLM進行更多的「測試時計算」（test-time computation），對于建構能在開放語境下操作、能實作自我提升的agent，是關鍵的一步

而這篇論文就重點研究了擴充「推理期計算」（inference-time computation）這個問題。

如果允許LLM使用固定但非平凡量的推理期計算，它在應對具有挑戰性的提示詞時，可以有多少性能提升？

這個問題不僅影響LLM的可實作性能，還關系到LLM預訓練的未來，以及如何在推理計算和預訓練計算之間進行權衡。

為了回答這個問題，研究團隊分析了擴充測試時計算的兩種主要機制：（1）針對密集的、基于過程的驗證器獎勵模型進行搜尋；（2）根據測試時得到的提示詞，自适應更新模型對響應的分布。

結果顯示，在這兩種情況下，對測試時計算的不同擴充方法的有效性，很大程度上取決于提示詞的難度。

論文位址：https://arxiv.org/abs/2408.03314

基于此，研究團隊提出了一種「計算最優」擴充政策——通過為每個提示詞自适應地配置設定測試時計算，使測試時計算的擴充的效率提高4倍以上。

另外，在FLOPs一緻的評估中，對于那些較小的基礎模型已取得一定程度非平凡成功率的問題，測試時計算可以使其超越規模大14倍的模型。

不過，網友們對這一猜測并不認可。

Topology首席執行官Aidan McLaughlin表示，谷歌DeepMind探讨的是最佳N采樣和蒙特卡洛樹搜尋（MCTS）。

而「草莓」可能會是一個具有特殊token（回溯、規劃等）的深度混合模型。它可能會通過人類資料标注者和來自易于驗證領域（如數學/程式設計）的強化學習進行訓練。

另一位網友也提出疑問——「草莓」不是一個神經符号模型嗎？

對此，Deedy解釋道：「根據網上的這些資訊和傳聞：『草莓』将通過在響應空間中使用搜尋技術來改進推理，其推理時間計算為10到20秒。」

而這，正是這項研究所解釋的内容。

OpenAI神秘模型草莓兩周内上線？數學推理暴漲，月收費200刀

【新智元導讀】就在剛剛，The Information曝出：OpenAI的草莓将于兩周内上線！收費疑似200刀一個月，最大的特色就是比其他模型多思考10到20秒。然而因為「狼來了」太多回，網友們忍不住吐槽：OpenAI現在就是個炒作公司。

處理複雜問題更拿手

多思考20秒是雞肋？

繼續閱讀

一年級上冊數學必考重點：相鄰數數軸填空專項卷（附答案，可下載下傳

好奇高中數學考試每次145+的人怎麼做的？看了網友分享明白了！

AI日報：複旦、百度新模型可生成1小時長視訊；全新ChatGPT Windows版本上線；NotebookLM又上2個新功能

測繪通報 | 任萍：基于LOD1城市模型的噪聲資料可視化

八年級上冊數學，期中考試90%學生難點《全等三角形》通關訓練

七年級上冊數學，期中複習《整式的加減》20大核心考點逐個擊破

數學圈不可思議的一個等式：0.999……= 1！

終端AI分級标準落地，手機大模型“戰火”燒到了智能體

J Clin Invest丨楊偉莉/李世華/李曉江團隊利用猴模型揭示帕金森疾病新病理機制

大模型訓練遭投毒損失千萬美元？Anthropic發現LLM代碼庫暗藏bug

全市近千名青少年齊聚中海博，在航海、航空、建築三大模型競賽中一展身手

DeepMind聯合MIT開發Fluid，讓自回歸模型實作文生圖的大規模擴充

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

學神不依靠題海戰術，但大多數學霸卻需要！

為什麼數學好的學生，最容易滑坡的學科是英語？

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務