硬核碰瓷Google，OpenAI突然釋出進階語音GPT-4o

文丨天晴了

今天，大家等了很久的 OpenAI 的 GPT-4o 進階語音功能，突然釋出。

就在谷歌前腳剛剛宣布推出 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 後。

毫秒級 ChatGPT “Her” 進階語音模式，終于全面向 Plus 訂閱使用者開放！使用者可以像與朋友互動一樣，感受到進階語音對話真人般流暢自然。

OpenAI 突然開放 GPT-4o進階語音

今天淩晨兩點，OpenAI 宣布進階語音模式今日起開始向訂閱使用者推出。

OpenAI 貌似在進階語音模式的視訊 Demo 中設計了“花式道歉”的彩蛋。

視訊 Demo 中，GPT-4o 用一口流利的中文說“奶奶對不起，我遲到了，我不是故意讓您等這麼久的”，仿佛是在和使用者們道歉，要知道，GPT-4o 可是遲到了将近半年的時間才正式推出。網友表示：原諒。

OpenAI 還特意提了一嘴，使用者可以讓它用50多種語言說“對不起，我遲到了。”

OpenAI GPT-4o 此次更新提高了在特定外語中的對話速度、流暢性和口音，互動的自然性和流暢度大幅提升。

進階語音功能具有真人般的情緒情感表達，對話自然、語氣豐富，可以達到與人類一樣的反應速度，做到随時被打斷，使用者的滿意度也達到了新高！

OpenAI 此次釋出的一個重要亮點是，進階語音模式可以自定義指令，具有記憶功能，能提供個性化定義。

在視訊中，OpenAI 研究員表示，使用者可以自定義指令，讓模型以某種口音發音、記住事件以及使用者想要如何被稱呼等。

另一個視訊中，OpenAI 負責模型設計的 Drew 表示，他在工作時，會讓 GPT-4o 靜靜地開着，當不與它交談時它很安靜，等有問題時就會提問，然後圍繞這個問題會展開一場長對話。大多數情況下，Drew 會把它當作坐在身邊的朋友，能為他提供資訊，交流想法。

有網友用它當法語陪練，其發音得到法語母語者十分認可，還有網友用它講故事助眠……

進階語音模式因為對語音反應時間更敏感，在某些嘈雜的場景下，也更容易被打斷。

此外，GPT-4o 還改進了口音，增添了五種新的音色，分别是：Vale、Spruce、Arbor、Maple、Sol。之前廣受好評，與電影《Her》中飾演 AI 戀人的斯嘉麗・約翰遜的聲音相似的sky音色，因受到質疑和批評，已被删除，徹底消失不見。

OpenAI表示，将在一周内向所有ChatGPT Plus和Team使用者推出。歐盟、英國、瑞士、冰島、挪威和列支敦士登除外，尚不提供。

目前，進階語音對話僅适用于 ChatGPT Plus 和 Team 帳戶的使用者，免費使用者可以通路标準語音模式。

不過，Plus 和 Team 使用者每天仍然有進階語音的使用限制，并且每日限制可能會發生變化。當一天的進階語音還剩 15 分鐘時，OpenAI 會向使用者發出通知。

當然還有一些需要注意的，如果使用者從文本或标準語音模式切換到進階語音模式後，将無法傳回到之前的文本或标準語音對話狀态。

目前，進階語音對話還未對 GPTs 開放。使用者隻能與 GPTs 進行标準語音對話。GPTs 擁有自己獨特的語音選項，名為 Shimmer。

盡管語音模式已經為使用者帶來了全新的互動體驗，但OpenAI 未停下腳步。

根據 OpenAI 團隊透露，備受期待的“視訊與螢幕共享功能”也快要上線，到時候 ChatGPT 将不再隻是語音夥伴，它還會成為使用者的第三隻眼睛！

據悉，此功能已經進入最後的測試階段，至于何時推出該功能，OpenAI 尚未明确。

谷歌Gemini更新兩款新模型，價格減半，速率提升

5 月，Google 釋出 Gemini 模型的大更新前，OpenAI 就曾提前搶開釋出會，宣布很快會帶來進階語音模式，登上媒體頭條“個人助理 Her 就要來了嗎？”

今天OpenAI也是強行截胡Google。

就在今早，OpenAI 釋出GPT-4o前，Google 釋出兩款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。

在谷歌的系列模型中，Gemini Pro 屬于中号模型，付費使用者可以使用。而 Gemini Flash 則在今年 5 月的 Google I/O 上第一次亮相，目前使用者可以免費在 Gemini 中使用，開發者也有一定免費的 API 使用配額。

此次Google模型更新的重點主要為 1.5 Pro 價格降低 >50%（Gemini 1.5 Pro 的輸入 token 價格降低 64%，輸出 token 價格降低 52%，增量緩存 token 價格降低 64%，适用于小于 128K token 的提示語，自 2024 年 10 月 1 日起生效），1.5 Flash 的速率限制提高了 2 倍，從 1000 RPM 提高到 2000 RPM。

1.5 Pro 的速率限制提高了約 3 倍，從 360 RPM 提高到 1000 RPM、輸出速度提高 2 倍，延遲降低 3 倍，過濾器切換為選擇加入。

Google 表示，此次模型在數學、長上下文視窗和視覺方面取得了一定的進步。

在更具挑戰性的 MMLU-Pro 基準測試中，大約能看到 7% 的性能提升。

而在數學和 HiddenMath（一個内部保留的數學競賽問題集）基準測試中，兩個模型都取得了約 20% 的顯著進步。

對于視覺和代碼使用場景，兩個模型在評估視覺了解和 Python 代碼生成的測試中表現也更好，提升範圍在約 2-7% 之間。

Gemini 模型本身的亮點包括長上下文和多模态功能。由于 Gemini Flash 對開發者有部分免費額度，新更新可能對于開發某些應用有着很好的效果。

X 上的前群邑集團亞太區首席執行官 AshutoshSrivastava 就表示，他使用 Google Flash 建構了一個應用，能夠在 1 分鐘内轉寫 13 分鐘的長音頻，且準确度很高（且免費）。在另一個應用中，他表示目标探測功能的表現也很不錯。

從 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出，此次 Google Gemini 的更新，不是一個大版本的更新，更多的是一次整體模型的更新。

部分網友看了谷歌的這波更新，覺得這并不值得被 OpenAI狙……

OpenAI的GPT-4o更新，沒有新增過于亮眼的功能，甚至也沒有完成五月份釋出會上的功能承諾（免費提供給所有使用者使用，以及跨越音頻、視訊和文本的實時推理等内容），早有預熱的全量推送倒更像定點狙擊 Google 新模型的産物。

有趣的是，此次 Gemini 的釋出，是由 Google 的 Logan Kilpatrick 主要負責對外溝通交流。

而 Logan Kilpatrick，正是 OpenAI 前開發者關系負責人，并在2024 年跳槽 Google。

而轉頭，此次 Google 釋出新模型，OpenAI 就碰瓷釋出進階語音GPT-4o。

OpenAI 此次宣布的時間點或許還有另外一個意義——此前外媒報道稱，Meta 公司本周将在 Meta AI 中推出名人語調的音頻對話功能。

市場競争依舊熱火朝天，這種狙擊是不是要成為日常 —— 前有某為持續正面硬剛蘋果，後有OpenAI不斷硬核碰瓷Google。

好在，不管競争如何，科技确實推動了技術發展。

未來，我們與 AI 的互動将不再局限于語音，還包括視訊、螢幕共享等更複雜的功能應用，他們甚至将會成為我們理想的AI助手，AGI 時代或即将到來，是不是更覺得未來可期了呢？

硬核碰瓷Google，OpenAI突然釋出進階語音GPT-4o

繼續閱讀

《連線》調查：大量開發者無緣OpenAI GPT Store分紅，但有機會賺錢

AI連摘諾獎後：AI教父Diss OpenAI，馬斯克借機拉踩，端到端怎麼走

2029年才能盈利？留給OpenAI的時間不多了

OpenAI 釋出實時 API，AI 實時語音時代如何搶占風口？

OpenAI驚天剽竊！20歲創始人自曝代碼結構被抄襲，多智能體陷争議

從非營利組織到估值1570億萬美元的子公司，OpenAI是怎麼做到的

微軟AI老将叛逃，但OpenAI面對新威脅：前CTO或創業挖人！

遊戲科學躍居 Steam 發行商收入榜前列；Adobe 推出 AI 視訊生成器，迎戰 OpenAI 和 Meta；小鵬 P7+預售價 20.98 萬元起，訂單已超 3 萬｜極客早知道

深度：OpenAI大清洗

OpenAI進軍國防的幕後幫手：年入160億美元，狂攬美國政府大單

比OpenAI還早4個月？這款産品如何為專業創作帶來全新體驗

英偉達開源新王登基！70B刷爆SOTA，擊敗GPT-4o隻服OpenAI o1

微軟将終止中國個人 Azure OpenAI 服務，僅企業客戶可用

Google 最出圈的 AI 産品，把 OpenAI CEO 也驚豔了

OpenAI o1與人工智能的過去與未來

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務