隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？

腦極體

2024-05-19 14:30釋出于河南科技領域創作者

最近AI領域備受矚目的新聞中，OpenAI和谷歌的新品釋出會，無疑占據了最多的頭條。

我們團隊當然也不例外，不僅第一時間觀看了兩家公司的釋出會，還親身上手體驗了号稱“颠覆世界”“世界又科幻了”的GPT-4o。

一句話總結：

OpenAI釋出會，失望；

谷歌釋出會，無聊。

并不是我們要故作驚人之語。實際上，AI業内專業人士普遍都有類似的看法。

一些國内從事AI工程化項目的人表示，“不關心，因為又用不到”。而AI科學家和專家也有不少人直言，“看着看着睡着了，谷歌幾乎所有的東西都是對标和追趕，沒有太多的新鮮感”。

又又又一次在與OpenAI的較量中處于下風，一個隻有谷歌受傷的世界達成了。

盡管兩大AI巨頭的新技術方向，仍然值得關注，但可以明确的是，随着大型AI模型的産業化程序不斷深入，國内外參與者也越來越冷靜，更加專注于自身的AI政策與節奏。

有人将這兩場釋出會比作是一場鬥地主遊戲，OpenAI打出一對二，谷歌就跟四個王。那麼，這一次較量的核心——多模态大模型，國内AI行業是否要跟進呢？如果要跟進，又該提前考量到哪些問題呢？

每一次新産品問世，如果隻跟着新聞“震驚”是很難進步的。不妨和我們一起，認真給GPT-4o算筆賬。

全能模型，究竟“驚豔”在哪裡？

谷歌反擊OpenAI的釋出會，被稱為“腹瀉式更新”，一口氣推出了十來款新品及更新。之是以讓人看到睡着，是因為大家已經在前一天被GPT-4o“驚豔”過了。

而這次谷歌開發者大會上所示範的其他産品，OpenAI早都釋出過。對标GPT-4o的Gemini Astra，表現又略遜一籌，也難怪大家興趣缺缺。顯然，這是一次針對谷歌的精準狙擊。此前，谷歌已經對外放出了語音助手demo示範的預熱視訊，而GPT-4o最讓人驚豔的地方就是“天花闆級别”的人機自然語音互動。

那麼，OpenAI機關算盡、谷歌有備而來的多模态大模型，究竟有什麼神奇之處？

GPT-4o中的“o”代表“omni”，意為“全能”，以此為版本号，凸顯了GPT-4o的多功能特性，可以從三個方面了解：

1.多模态。

GPT-4o接受文本、音頻和圖像的任意組合作為輸入，實時對音頻、視覺和文本進行推理，生成相應的輸出。相比ChatGPT的文生文、文生圖，Sora的文生視訊等，GPT-4o是一個原生多模态的融合體。這一點，谷歌的Gemini Astra也能實作，支援多模态的推理。在示範視訊中，谷歌的智能助手可以了解手機攝像頭拍攝的世界（視訊、圖像），并用文字詳細地講述出來。

當然，多模态大模型并不是什麼新鮮事物。不隻這倆AI巨頭，國内在多模态大模型領域也有一些研究和開發。此前就有浙大校友開源了多模态大模型LLaVA，對标OpenAI的GPT-4V。既然多模态大模型并不稀奇，那GPT-4o憑啥“驚豔”？答案就在第二點。

2.低延遲時間。

GPT-4o是一個端到端、全鍊路貫穿的多模态大模型。

此前，語音産品一般由三個獨立模型組成：SLM1将音頻轉錄為文本——LLM将文本輸出為文本——SLM2将生成文本轉換為音頻。每一步的網絡延遲疊加起來，結果就是AI推理速度跟不上人嘴巴說話的速度。大家可能都有過類似的經曆，自己都說完了，AI大模型還沒識别完全，互動總被打斷，有時還會丢失很多資訊，連基本的文字都聽不清，更别說從笑聲、停頓、歎氣等因素中分析出人的情緒了，人當然也就沒有了說下去的興緻。

而GPT-4o的端到端，就是省去了中間的處理步驟，由同一個神經網絡來接受并處理來自不同模态（如文本、視覺和音頻）的輸入資料，并直接輸出結果。這樣就可以将語音互動的響應時延，控制在232 毫秒以内，體感上比人類回應還要迅速。

OpenAI示範完GPT-4o，大家紛紛表示，科幻電影中《Her》跟機器談情說愛的未來就要實作了。不過，谷歌并不這樣想。

（截圖自奧特曼的社交媒體）

在晚一天的谷歌釋出會上，谷歌Gemini 1.5 Flash的響應其實也很快速，同樣能幾乎沒有延遲地跟人類流暢互動，但還是比GPT-4o要長一些。不過谷歌聲稱，自己的兩段示範視訊均為“單次拍攝、實時錄制完成”。

我們猜測，這是在暗示OpenAI又在“貸款領先”了，GPT-4o實際可能無法很快真的落地，畢竟OpenAI搞誤導性營銷是有前科的，Sora就曾爆出，拿藝術家編輯過的視訊當原視訊宣傳，示範效果并非完全由AI生成。

展示效果是真是假，有待時間驗證，不過OpenAI和谷歌在端到端方面的工作，證明了人機語音互動的超低延遲時間是可以實作的，達到媲美人類交流的水準。而這，就為語音互動的多場景應用，打下了新的技術根基。

3.多場景。

大家應該都還記得，ChatGPT問世時舉世震驚的效果。大語言模型的強大了解能力和泛化性，可以促成NLP在多種文本任務上帶來颠覆式的影響，而這類任務幾乎遍布在各行各業。

再看GPT-4o，多模态大模型在音視訊了解方面尤其出色，也是一個非常泛在的通用型技術。而毫不誇張地說，GPT-4o将語音互動體驗做到了“天花闆級别”，這幾乎可以給語音場景都帶來改變。

比如OpenAI所展示的輔導孩子數學題，可以替代家長輔導作業，讓家家都過上和諧的日子；《Her》電影中跟智能語音機器人談戀愛的場景，可以讓人人都擁有自己的網絡戀愛/線上情感撫慰師。延展開來，此前曾被嘲笑“人工智障”的手機語音助手，銀行、電信等行業的客服機器人，缺乏充足師資力量的偏遠學校，遊戲裡跟玩家互動的NPC紙片人，以及能識别使用者情緒的精準營銷……

凡有人聲處，皆可詠AI，正随着端到端多模态大模型的進化與落地，讓更自然、更逼真、富有感情的人機互動成為可能。

從這個角度說，GPT-4o所代表的技術前瞻性，确實配得上“全能o”這個詞。既然如此，為什麼說隻有谷歌一家受傷了呢？

不慌不忙，隻有谷歌受傷的世界達成了

OpenAI一有新品釋出，國内大衆的期待與緊張情緒便如同谷歌的皮猜（Sundar Pichai）一樣高漲，這幾乎已經是慣例了。

預判國内觀衆的預判，很多中文媒體也在OpenAI春季新品釋出會剛發完的早晨，就炮制了一系列“颠覆世界”“炸裂登場”的新聞。有人說它要革谷歌的命，革Siri的命，革同傳的命，革心理咨詢師、情感輔導、私人教練等1V1咨詢的命……

或許還有不明真相的群衆信以為真，而谷歌也确實進行了反擊，但國内AI業内人士大多呵呵一笑。這可能是第一次，面對OpenAI的進攻，隻有谷歌受傷的世界達成了。

為什麼國内AI從業者普遍對GPT-4o及對标GPT-4o的Gemini Astra，反應平平，甚至看釋出會都能睡着？

首要原因，當然是新産品不達預期。

許多人原本滿懷期待地等OpenAI放出GPT-5，就算沒有，也得是跟Sora一樣驚豔的東西，但GPT-4o更多的是在現有技術架構内的一次疊代更新。而谷歌此前釋出的Gemini也有多模态能力。可以說，雙方雖然都在多模态處理方面，做出了改進和增強，但并沒有實作根本性的技術飛躍。是以有人說，大家期待的是一個“核彈”，而OpenAI這次拿出的是一個“摔炮”。

另一個原因，是OpenAI“狼來了”玩太多次了。

OpenAI會營銷是共識，有不少人都在Sora翻車之後表示，“厭倦了OpenAI的精美Demo營銷”。投資人朱嘯虎OpenAI CEO Sam Altman奧特曼每次都把PR宣傳時間點拿捏得很準，顯示自己這波在“大氣層”，但幾個月之後都沒有開放給公衆使用。

越來越多人認識到這一點，也對OpenAI的“demo釋出會”變得不信任、不耐煩了。

（截圖自社交媒體，網友對OpenAI的評論）

當然，最關鍵的還是，經過一年多的大模型落地實踐，國內AI産業鍊上下遊可能都對OpenAI和大模型“祛魅”了。

這就像打牌，面對别人擺下的龍門陣，剛剛坐上牌桌，對遊戲規則和政策不夠熟悉，自然要先觀察和模仿對方的政策，趕緊先把大語言模型搞出來，也會下意識地聽取圍觀群衆的建議。明明自己才是幹AI的，但一聽媒體分析師或網友說“落後了”，立馬焦慮，忙着對标ChatGPT、對标GPT-4，又容易“翻車”引發輿論危機。剛上牌桌，進退失據，亦步亦趨跟進OpenAI是難免的。

但一年多時間過去，很多真正做大模型和産業落地的人與企業，或許還沒徹底弄清楚中國大模型産業化、商業化應該怎麼做，但一個共識很清楚——像OpenAI、谷歌那樣做不行。最簡單的，GPT-4o能第一時間拿到英偉達最先進的顯示卡，這就是國内廠商很難擁有的資源。

此外，ToB領域對模型可控性的要求、私有化部署的需求等，國内企業的智能化要從資料清洗、知識庫等基礎工作開始，而不是直接調用最先進模型的API……

這些問題，導緻國內AI産業界對追趕OpenAI“炸裂新品”的興趣，越來越小，找到了自己做大模型的節奏和政策。

這些背景綜合起來，導緻隻有緊跟在OpenAI身後苦苦追趕的谷歌，被GPT-4o傷得最深。

多模态大模型的收益比，到底怎麼樣？

當然，不再一味追着OpenAI的節奏疲于奔命，并不意味着OpenAI和谷歌都在發力的技術方向，就不重要了，就可以不關心了。

隻不過，在盯緊趨勢的基礎上，還得統籌牌局，算好收益比，究竟何時出牌、什麼出牌順序，對大模型商業化的潛在收益風險比是最高的。

那麼，GPT-4o及Gemini Astra這類端到端多模态大模型，對企業的潛在收益與風險，究竟如何呢？

先說收益。

目前來看，與豐富的軟硬體生态相結合，能夠更快落地、價值最大化。

比如谷歌Gemini Astra盡管在了解能力、時延上不及GPT-4o，但谷歌憑借強大應用生态的支援，讓跨模态了解生成，有了用武之地，股價也有所上漲。

硬體方面，谷歌Gemini的多模态能力與XR眼鏡整合，讓商業化遇阻的“谷歌眼鏡”再次回魂重塑；

軟體方面，GPT-4o被傳将與蘋果綁定，加速IOS的AI化程序。而谷歌則将多模态能力融入搜尋，使用者可以通過語音、圖檔等與搜尋引擎互動，支援搜尋視訊内容。

（截圖自社交媒體，網友對GPT-4o的評論）

不過，這些都是展望。在實際落地、與軟硬體結合的過程中，AI公司可能會輸掉一些籌碼，潛在風險包括：

長期虧損。就連OpenAI都遭遇了流量危機，開始通過免費換使用者規模，這意味着在算力、人員等方面的長期投入。AGI是一個長期任務，可能需要十年、二十年的時間，如果在每一個階段，不能成功實作規模商業化，想一把賭個大的，靠後期非線性增長來扭虧為盈，很有可能“大業未成而中道崩阻”。

同質化競争。OpenAI與谷歌的大模型競争，撕咬得很緊，而技術領域想要徹底封閉是不可能的，這意味着底層模型能力很快會趨同，這時候使用者會轉變為價格敏感型，進入殘酷的價格戰。如果沒有差異化的營收模式，一味跟進底層模型的絕對領先，利潤會越來越微薄。

可能有人會說，還沒做出國産版GPT-4o就惦記着商業化、賺錢，真的很庸俗。

必須得說明一下，從收益比最優的角度，決定怎麼出牌，OpenAI可算是熟手了。事實上，ChatGPT的推出是為了用聊天機器人來搶到關注度，而GPT-5遲遲不推出，除了坊間猜測的能力不達預期之外，也有對釋出時機的考量。奧特曼已經表達過多次，“GPT-5很厲害，但我們還沒有确定如何将這些産品推向市場”。

師夷“算賬”以制夷，國內AI公司也得學會踩點市場節奏，做出更明智、收益比更高的商業政策，才能長期良性發展。網友大型“雙标”要不得。

從國内LLMtoB（面向B端市場的大模型）的一些實踐經驗來看，GPT-4o在當下确實還存在一些阻礙落地的實際問題。

比如可控性，AIGC生成的文本、圖檔，都比較容易進行内容控制，由其他模型或人類專家來把控内容品質與合規風險，超低延遲時間的實時語音互動如何保障内容品質？如果在輔導作業、醫生問診、心理咨詢等嚴肅場景中出現幻覺和胡說八道，甚至違法違規的内容，該怎麼及時防範？

奧特曼在GPT-4o的技術部落格中提到，該模型在網絡安全等風險次元上都“不超過中等水準”，也就是說，目前隻能實作中等及以下的安全能力。無論是C端使用者，還是B端政企客戶，誰放心将喜怒哀樂、私密資訊都告訴多模态大模型？怎麼打消使用者的安全顧慮，還需要在資料源頭、模型訓練、規則機制設計、産品功能上都有充分細緻地打磨。

更要問一句，創業公司和開發者的努力總是被新的模型能力覆寫掉，是不是來自AI大模型廠商的一種“背刺”？什麼樣的智能語音産業生态，才能吸引他們來用？

這些落地問題不解決，所謂的《Her》一般的科幻未來，就隻能一直存在于OpenAI的demo中了。

從實際情況來說，跟上技術路線并不算真難題。算好收益比，搞清楚自己和對手手裡的牌面，以及多模态大模型的商業牌局，才是更難也更緊迫的問題。

GPT-4o這一波，國内AI企業不用急着再上牌桌。

檢視原圖 47K

隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？
隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？
隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？
隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？
隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？
隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？
隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？
隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？
隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？

隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？

隻有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？

繼續閱讀

6月打野梯隊：新四大野王誕生！56%勝率戰士起飛，大司命逐漸離譜！

索要5年3.2億！獅子大開口，NBA最自信二當家誕生，超級豪陣要散夥了

4500萬！恭喜拜仁！夏窗首簽誕生，葡萄牙球星确定低價加盟

偶像的黃昏：如何再造一個王一博，沒人知道

劉亦菲《玫瑰是故事》空降，結兩次婚三個娃四段感情，林更新作配

🇮🇹意大利足球一到世界杯，歐洲杯這種時候，會冒出各種各樣的足球專家，對球隊球員評頭論足，甚是專業。【接下來這段時間，一直

運動讓你更有氣質，讀書讓你看見未見過的世界

1.2億巨星，引皇馬巴薩全面開戰？皇馬跟隊回應：巴薩不配

别再隻盯着“五折馬”了？這幾款豪車價格也在跳水

LPL再現“奧斯卡之夜”？BLG幽默式2-0赢下LGD，Bin盡力了！

波蘭2-1土耳其，紮萊夫斯基、希維德爾斯基破門

任何出現街頭爆炸死傷無數的電影和新聞都是在變相煽動和鼓勵下一波恐怖分子效仿和前赴後繼！

華為鴻蒙智行 6 月 8-9 号兩天大定超 4500 台

AG狼隊表演賽樂開花，大帥被殺N次，小胖想練猴子，李九離譜口誤

大清滅亡前，發生三件無法解釋的怪事，難道世界上真有亡國之兆？

友誼賽-荷蘭4-0冰島哈維-西蒙斯處子球範迪克破門馬倫傳射