天天看點

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

編輯:Aeneas 好困

【新智元導讀】就在剛剛,The Information曝出:OpenAI的草莓将于兩周内上線!收費疑似200刀一個月,最大的特色就是比其他模型多思考10到20秒。然而因為「狼來了」太多回,網友們忍不住吐槽:OpenAI現在就是個炒作公司。

最新消息,「草莓」将在兩周内釋出!

這一消息由外媒The Information曝出,據稱是兩位已經測試過草莓模型的人士透露的。

釋出時間比此前報道的秋季要早。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

草莓跟其他模型的最大差別是啥呢?

答案是,更智能,但更慢、更貴。

而知名爆料人Jimmy Apples的說法是,一個模型(可能被稱為GPT-4.5)預計會在十月釋出。

與此同時,GPT-5很可能會在12月釋出,但保險起見,說2025年第一或第二季度釋出,是比較穩妥的。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

在9月3日,Jimmy Apple還曾經艾特Sam Altman,戲谑地問道:「我耳邊的低語是真的嗎?我們終于要在十月做一些事了嗎?」

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

根據Jimmy Apple的說法,需要耐心的時代已經過去,現在,我們迎來了釋出的季節。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

而AI大V「數字生命卡茲克」表示,自己的朋友發現ChatGPT Pro會員已經上線了,售價200美元每月。

他們推測,ChatGPT Pro會員,或許就是為即将上線的草莓而準備的。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

不過根據此前的爆料,草莓本身的目的,似乎是為OpenAI的下一代大模型獵戶座生成更高品質資料。

是以也有人說,我們不必對草莓抱以過高期待。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

草莓,比我們預期的更早?

據悉,兩位已經測試過草莓模型的人士透露,OpenAI計劃在兩周内将其作為ChatGPT服務的一部分釋出。

而在原先,The Information報道的釋出時間是在秋季。

這一次,報道中透露了一些新細節。

首先,雖然草莓是ChatGPT的一部分,但它是一個獨立的産品。

目前還不清楚它将如何推出,一種可能是将其包含這種驅動ChatGPT的AI模型的下拉菜單中,根據兩位人士的說法。

這就會讓草莓跟正常的服務有很大不同。

第二點,草莓和其他對話式AI最大的差別,就是它在響應之前會思考10到20秒,然後才回答問題。

多個網友現身說法,表示自己上周發現ChatGPT傳回某個響應時需要10秒才能加載,或許OpenAI已經在進行a/b測試了。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

第三點,草莓的初始版本目前隻能接收和生成文本,而不能處理圖像,這也就意味着,它尚未像OpenAI的其他模型一樣實作多模态功能。

因為如今釋出的大多數LLM都是多模态的,這個缺陷對比之下就很顯著。

最後,就是定價問題了。

現在OpenAI的聊天機器人有免費的,也有分等級的訂閱價格。

草莓可能會有低價位和高價位的兩檔,前者會有速率限制,并且限制使用者每小時的最大消息數量;而更高價位的版本,響應的速度也會更快。

這種安排,當然也是希望讓更多使用者為新模型付費,就像此前OpenAI限制ChatGPT免費使用者消息數量一樣。

草莓會怎樣收費呢?

根據The Information此前的爆料,每月50、75、200、2000刀似乎都有可能。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

一位知情人士稱,在OpenAI早期的内部讨論中,訂閱價格曾高達每月2000美元,但并未最終确定

如今看來,200美元/月的定價應該是沒跑了。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

來源:數字生命卡茲克

The Information還預測,目前為ChatGPT付費(每月20美元)的客戶,會比免費使用者更早通路首個草莓模型。

處理複雜問題更拿手

據悉,草莓會比GPT-4o更擅長複雜的問題,或多步驟查詢。

目前,如果使用者想在ChatGPT中得到理想的答案,往往還需要輸入各種格外的prompt。

比如用「連貫思維提示」,讓ChatGPT通過中間推理步驟來得出答案。

而草莓可能會避免這種麻煩,讓使用者一步得到結果。

這也就意味着,草莓不僅在數學和編碼問題上會更好,還會更擅長主觀的商業任務,比如頭腦風暴一個産品營銷政策。

爆料人表示,草莓的思考步驟,會避免它出錯。

而多思考的那十秒到二十秒,會讓它更可能知道,何時要向客戶詢問後續問題,來完成對他們的解答。

多思考20秒是雞肋?

然而兩位人士透露,OpenAI還需要再解決一些問題。

比如,理論上講,草莓應該能夠在使用者提出簡單問題時,跳過其思考步驟。然而在實際應用中,模型并不總是這樣。

它可能會錯誤地花費過多時間,來回答那些其他OpenAI模型很快就能回答的問題。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

用過草莓模型的人抱怨說,跟GPT-4o相比,草莓的回複隻是稍稍更好一些,但并沒有好到值得使用者去等10到20秒。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

另外,OpenAI希望迎合使用者的這一特定偏好:在回答新問題前,草莓會記住并且整合與使用者先前的聊天記錄。

這個細節非常重要,比如如果使用者希望軟體代碼以某種格式書寫的時候,這種能力就非常有用。

然而令人沮喪的是,草莓并不總是能做到這一點。

網友吐槽:還要擠多久?

冷知識:距離OpenAI釋出GPT-4,已經過去了一年零六個月。而新模型的影子,至今還沒看到。

OpenAI的草莓,來來回回炒作了好幾遍。狼來了的故事來了太多次,網友們都快麻了。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

别家都是要發模型就幹脆利落地發,隻有它把同一個話題來回來去地炒,就是不發真東西。

奧特曼之前曬出花園裡的草莓照,就曾一度引起軒然大波,然而最終卻無事發生,這種「謎語人」的操作難免令人生厭。

現在提起OpenAI,很多群衆的第一反應就是——

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

沒錯,它已經逐漸淪為「炒作」的代名詞。

更有網友做出梗圖,調侃道:OpenAI釋出新模型的姿勢是這樣的——

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

這樣的——

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

以及這樣的——

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

本來在大模型領域,OpenAI是遙遙領先的上司者。但如今,競争者們早已後來居上了。

上個月,谷歌就推出了AI語音助手 ,能夠靈活處理使用者的突然中斷和話題變化。

要知道,OpenAI在五月就首發了「Her」的功能,然而這個語音助手GPT-4o Voice随後卻推遲了釋出,原因是OpenAI在提高安全措施,確定模型拒絕不當内容。

如今正值草莓模型的釋出前期,可能OpenAI也在做類似的準備。

而最令人失望的一點其實是,跟前兩年的如火如荼相比,今年OpenAI的發展似乎已經停滞了。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

與此同時,模型的計算量、參數大小、資料集大小,都紛紛遭遇瓶頸,開源模型和閉源模型的能力也在逐漸縮小。

是不是因為沒有不夠的GPU,是以我們現在依然離AGI如此遙遠?

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

如何破局?用RL

打破瓶頸的方法,如今各家都走到了同一路徑——Self-play RL。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

在LLM領域,自我博弈理論看起來就像是AI回報

Claude 3.5就是基于Self-play RL做出的,是以代碼能力強到突出。

而我們都知道,草莓有一個重要作用,就是給下一代大模型合成資料,這裡面有個前提,就是它同樣是基于新範式Self-play做出的。

很多LLM的弱點就在推理能力上,而有些初創公司為了提高它們的推理能力,就采用了一種廉價的技巧,将問題分解為更小的步驟,盡管這些方法速度慢且成本高昂。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

AlphaGo就是通過Self-play學習,擊敗了李世石

在草莓中,我們也看到了類似的思路。

用Self-play RL去驗證,自然就能讓草莓的數學和代碼能力上飛速暴漲。

同樣,付出的代價就是極高的推理成本,導緻它又貴、又慢。

但得到的結果,是極高的智能,或許啟發我們通往AGI的路線,就靠草莓這種思路了。

說起來,「草莓之父」,其實就是已經離職了的OpenAI的首席科學家Ilya Sutskever。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

據悉,OpenAI的一些人認為Q*可能是OpenAI在AGI上取得的一個突破

在Ilya離職之前,OpenAI的研究人員Jakub Pachocki和Szymon Sidor,在Ilya的工作基礎上開發了一個新的數學求解模型Q*。

據稱,Q*解決的此前從未見過的數學題。

Ilya做出的突破,使OpenAI不再受限于擷取足夠的高品質資料來訓練新模型,而這,正是開發下一代模型的主要障礙。

另外,在去年Q*的前期準備中,OpenAI研究人員開發了一種被稱為「測試時計算」的概念變體,目的是提升LLM的問題解決能力。

這樣,LLM就會花更多時間考慮被要求執行的指令,或問題的各個部分。

當時,Ilya發表了一篇與這項工作相關的部落格,展示了模型如何解決了數個極有難度的數學問題。

比如在下面這道題中,GPT-4成功執行了一系列複雜的多項式分解。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀
OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀
OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

基于這類技術做出的草莓,雖然更貴、更慢,但數學和推理的進步無疑是驚人的。

或許對于普通使用者,它未必是一個更值得付費的産品。

但對于需要高階能力的場景,草莓會更有發揮的餘地。

大佬猜測:谷歌DeepMind論文疑似揭示方法

有趣的是,Menlo風投負責人、前谷歌搜尋工程師Debarghya Das發推稱:Google DeepMind在最近一篇論文中提出的方法,可能就是OpenAI在Strawberry上用的。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

論文提出,讓LLM進行更多的「測試時計算」(test-time computation),對于建構能在開放語境下操作、能實作自我提升的agent,是關鍵的一步

而這篇論文就重點研究了擴充「推理期計算」(inference-time computation)這個問題。

如果允許LLM使用固定但非平凡量的推理期計算,它在應對具有挑戰性的提示詞時,可以有多少性能提升?

這個問題不僅影響LLM的可實作性能,還關系到LLM預訓練的未來,以及如何在推理計算和預訓練計算之間進行權衡。

為了回答這個問題,研究團隊分析了擴充測試時計算的兩種主要機制:(1)針對密集的、基于過程的驗證器獎勵模型進行搜尋;(2)根據測試時得到的提示詞,自适應更新模型對響應的分布。

結果顯示,在這兩種情況下,對測試時計算的不同擴充方法的有效性,很大程度上取決于提示詞的難度。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

論文位址:https://arxiv.org/abs/2408.03314

基于此,研究團隊提出了一種「計算最優」擴充政策——通過為每個提示詞自适應地配置設定測試時計算,使測試時計算的擴充的效率提高4倍以上。

另外,在FLOPs一緻的評估中,對于那些較小的基礎模型已取得一定程度非平凡成功率的問題,測試時計算可以使其超越規模大14倍的模型。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀
OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

不過,網友們對這一猜測并不認可。

Topology首席執行官Aidan McLaughlin表示,谷歌DeepMind探讨的是最佳N采樣和蒙特卡洛樹搜尋(MCTS)。

而「草莓」可能會是一個具有特殊token(回溯、規劃等)的深度混合模型。它可能會通過人類資料标注者和來自易于驗證領域(如數學/程式設計)的強化學習進行訓練。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

另一位網友也提出疑問——「草莓」不是一個神經符号模型嗎?

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

對此,Deedy解釋道:「根據網上的這些資訊和傳聞:『草莓』将通過在響應空間中使用搜尋技術來改進推理,其推理時間計算為10到20秒。」

而這,正是這項研究所解釋的内容。

OpenAI神秘模型草莓兩周内上線?數學推理暴漲,月收費200刀

繼續閱讀