文丨天晴了
今天,大家等了很久的 OpenAI 的 GPT-4o 進階語音功能,突然釋出。
就在谷歌前腳剛剛宣布推出 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 後。
毫秒級 ChatGPT “Her” 進階語音模式,終于全面向 Plus 訂閱使用者開放!使用者可以像與朋友互動一樣,感受到進階語音對話真人般流暢自然。
OpenAI 突然開放 GPT-4o進階語音
今天淩晨兩點,OpenAI 宣布進階語音模式今日起開始向訂閱使用者推出。
OpenAI 貌似在進階語音模式的視訊 Demo 中設計了“花式道歉”的彩蛋。
視訊 Demo 中,GPT-4o 用一口流利的中文說“奶奶對不起,我遲到了,我不是故意讓您等這麼久的”,仿佛是在和使用者們道歉,要知道,GPT-4o 可是遲到了将近半年的時間才正式推出。網友表示:原諒。
OpenAI 還特意提了一嘴,使用者可以讓它用50多種語言說“對不起,我遲到了。”
OpenAI GPT-4o 此次更新提高了在特定外語中的對話速度、流暢性和口音,互動的自然性和流暢度大幅提升。
進階語音功能具有真人般的情緒情感表達,對話自然、語氣豐富,可以達到與人類一樣的反應速度,做到随時被打斷,使用者的滿意度也達到了新高!
OpenAI 此次釋出的一個重要亮點是,進階語音模式可以自定義指令,具有記憶功能,能提供個性化定義。
在視訊中,OpenAI 研究員表示,使用者可以自定義指令,讓模型以某種口音發音、記住事件以及使用者想要如何被稱呼等。
另一個視訊中,OpenAI 負責模型設計的 Drew 表示,他在工作時,會讓 GPT-4o 靜靜地開着,當不與它交談時它很安靜,等有問題時就會提問,然後圍繞這個問題會展開一場長對話。大多數情況下,Drew 會把它當作坐在身邊的朋友,能為他提供資訊,交流想法。
有網友用它當法語陪練,其發音得到法語母語者十分認可,還有網友用它講故事助眠……
進階語音模式因為對語音反應時間更敏感,在某些嘈雜的場景下,也更容易被打斷。
此外,GPT-4o 還改進了口音,增添了五種新的音色,分别是:Vale、Spruce、Arbor、Maple、Sol。之前廣受好評,與電影《Her》中飾演 AI 戀人的斯嘉麗・約翰遜的聲音相似的sky音色,因受到質疑和批評,已被删除,徹底消失不見。
OpenAI表示,将在一周内向所有ChatGPT Plus和Team使用者推出。歐盟、英國、瑞士、冰島、挪威和列支敦士登除外,尚不提供。
目前,進階語音對話僅适用于 ChatGPT Plus 和 Team 帳戶的使用者,免費使用者可以通路标準語音模式。
不過,Plus 和 Team 使用者每天仍然有進階語音的使用限制,并且每日限制可能會發生變化。當一天的進階語音還剩 15 分鐘時,OpenAI 會向使用者發出通知。
當然還有一些需要注意的,如果使用者從文本或标準語音模式切換到進階語音模式後,将無法傳回到之前的文本或标準語音對話狀态。
目前,進階語音對話還未對 GPTs 開放。使用者隻能與 GPTs 進行标準語音對話。GPTs 擁有自己獨特的語音選項,名為 Shimmer。
盡管語音模式已經為使用者帶來了全新的互動體驗,但OpenAI 未停下腳步。
根據 OpenAI 團隊透露,備受期待的“視訊與螢幕共享功能”也快要上線,到時候 ChatGPT 将不再隻是語音夥伴,它還會成為使用者的第三隻眼睛!
據悉,此功能已經進入最後的測試階段,至于何時推出該功能,OpenAI 尚未明确。
谷歌Gemini更新兩款新模型,價格減半,速率提升
5 月,Google 釋出 Gemini 模型的大更新前,OpenAI 就曾提前搶開釋出會,宣布很快會帶來進階語音模式,登上媒體頭條“個人助理 Her 就要來了嗎?”
今天OpenAI也是強行截胡Google。
就在今早,OpenAI 釋出GPT-4o前,Google 釋出兩款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。
在谷歌的系列模型中,Gemini Pro 屬于中号模型,付費使用者可以使用。而 Gemini Flash 則在今年 5 月的 Google I/O 上第一次亮相,目前使用者可以免費在 Gemini 中使用,開發者也有一定免費的 API 使用配額。
此次Google模型更新的重點主要為 1.5 Pro 價格降低 >50%(Gemini 1.5 Pro 的輸入 token 價格降低 64%,輸出 token 價格降低 52%,增量緩存 token 價格降低 64%,适用于小于 128K token 的提示語,自 2024 年 10 月 1 日起生效),1.5 Flash 的速率限制提高了 2 倍,從 1000 RPM 提高到 2000 RPM。
1.5 Pro 的速率限制提高了約 3 倍,從 360 RPM 提高到 1000 RPM、輸出速度提高 2 倍,延遲降低 3 倍,過濾器切換為選擇加入。
Google 表示,此次模型在數學、長上下文視窗和視覺方面取得了一定的進步。
在更具挑戰性的 MMLU-Pro 基準測試中,大約能看到 7% 的性能提升。
而在數學和 HiddenMath(一個内部保留的數學競賽問題集)基準測試中,兩個模型都取得了約 20% 的顯著進步。
對于視覺和代碼使用場景,兩個模型在評估視覺了解和 Python 代碼生成的測試中表現也更好,提升範圍在約 2-7% 之間。
Gemini 模型本身的亮點包括長上下文和多模态功能。由于 Gemini Flash 對開發者有部分免費額度,新更新可能對于開發某些應用有着很好的效果。
X 上的前群邑集團亞太區首席執行官 AshutoshSrivastava 就表示,他使用 Google Flash 建構了一個應用,能夠在 1 分鐘内轉寫 13 分鐘的長音頻,且準确度很高(且免費)。在另一個應用中,他表示目标探測功能的表現也很不錯。
從 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出,此次 Google Gemini 的更新,不是一個大版本的更新,更多的是一次整體模型的更新。
部分網友看了谷歌的這波更新,覺得這并不值得被 OpenAI狙……
OpenAI的GPT-4o更新,沒有新增過于亮眼的功能,甚至也沒有完成五月份釋出會上的功能承諾(免費提供給所有使用者使用,以及跨越音頻、視訊和文本的實時推理等内容),早有預熱的全量推送倒更像定點狙擊 Google 新模型的産物。
有趣的是,此次 Gemini 的釋出,是由 Google 的 Logan Kilpatrick 主要負責對外溝通交流。
而 Logan Kilpatrick,正是 OpenAI 前開發者關系負責人,并在2024 年跳槽 Google。
而轉頭,此次 Google 釋出新模型,OpenAI 就碰瓷釋出進階語音GPT-4o。
OpenAI 此次宣布的時間點或許還有另外一個意義——此前外媒報道稱,Meta 公司本周将在 Meta AI 中推出名人語調的音頻對話功能。
市場競争依舊熱火朝天,這種狙擊是不是要成為日常 —— 前有某為持續正面硬剛蘋果,後有OpenAI不斷硬核碰瓷Google。
好在,不管競争如何,科技确實推動了技術發展。
未來,我們與 AI 的互動将不再局限于語音,還包括視訊、螢幕共享等更複雜的功能應用,他們甚至将會成為我們理想的AI助手,AGI 時代或即将到來,是不是更覺得未來可期了呢?