ChatGPT進階語音模式終于上線：中文一開口，就暴露了「歪果仁」身份

機器之心

2024-07-31 15:19釋出于北京機器之心官方賬号

機器之心報道

編輯：蛋醬、小舟

OpenAI 的「Her」終于向部分人群開放了。

今年 5 月，OpenAI 在「春季新品釋出會」上搬出了新一代旗艦生成模型 GPT-4o、桌面 App，并展示了一系列新能力。

現在，OpenAI 宣布向一小部分 ChatGPT Plus 使用者開放 ChatGPT 的進階語音模式，讓使用者首次獲得 GPT-4o 的超現實音頻響應。這部分使用者将在 ChatGPT 應用程式中收到提醒，并收到一封電子郵件，其中包含有關如何使用該應用程式的說明。

「自從我們首次示範先進的語音模式以來，我們一直緻力于加強語音對話的安全性和品質，準備将這項前沿技術帶給數百萬人。」OpenAI 表示，該功能将在 2024 年秋季逐漸向所有 Plus 使用者推出。

一些使用者已經曬出了進階語音模式的使用效果：

來源：https://x.com/tsarnick/status/1818402307115241608

當你和 ChatGPT 講段子時，Ta 可以提供一些笑聲陪伴：

來源：https://x.com/yoimnotkesku/status/1818406786077970663

使用 ChatGPT 的進階語音模式，「Her」可以在講故事的同時建立背景音樂，并且适用于多種語言。

來源：https://x.com/yoimnotkesku/status/1818415019349901354

法語、西班牙語和烏爾都語也都可以：

來源：https://x.com/yoimnotkesku/status/1818424494106853438

但中文表達不太道地，仿佛一個正在學習中文的「歪果仁」：

來源：https://x.com/yoimnotkesku/status/1818446895083139170

聽完的人都懵了：

而口音問題不隻出現在中文，據說德語也一樣：

來源：https://x.com/yoimnotkesku/status/1818445235606671670

最後，講段繞密碼吧：

來源：https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI 表示進階語音模式與 ChatGPT 目前提供的語音模式有所不同。

ChatGPT 的舊語音模式解決方案使用了三種獨立的模型：一個模型将語音轉換為文本，GPT-4 負責處理提示（prompt），第三個模型則負責将 ChatGPT 的文本轉換為語音。而 GPT-4o 是多模态的，能夠在沒有輔助模型的幫助下處理這些任務，進而顯著降低對話延遲。OpenAI 還表示 GPT-4o 可以感覺使用者聲音中的情緒語調，包括悲傷、興奮等等。

今年 5 月，OpenAI 首次展示了 GPT-4o 的語音功能，「她」的反應速度、與真人聲音的驚人相似度震驚了觀衆 —— 問題就出在這兒。

這個名叫「Sky」的聲音酷似電影《Her》中人工助手的扮演者斯嘉麗・約翰遜（Scarlett Johansson）。

在 OpenAI 示範之後不久，約翰遜說她曾拒絕 OpenAI CEO 山姆・奧特曼關于使用她的聲音的多次請求，在看到 GPT-4o 的示範之後，她聘請了法律顧問為自己的聲音辯護。OpenAI 否認使用了斯嘉麗・約翰遜的聲音，但也删除了示範中的聲音。

6 月，OpenAI 表示将推遲釋出進階語音模式，以改進其安全措施。

漫長的等待後，「Her」總算與大家見面了。OpenAI 表示，此次推出的進階語音模式将僅限于 ChatGPT 與付費配音演員合作，制作了四種預設語音：Juniper、Breeze、Cove 和 Ember。

值得注意的是，輸出的聲音有且隻有這四種 —— OpenAI 5 月份的示範中展示的 Sky 語音已不再适用于 ChatGPT。OpenAI 發言人 Lindsay McCallum 表示：「ChatGPT 不能冒用他人的聲音，包括個人和公衆人物的聲音，并且會阻止與這些預設聲音之一不同的輸出。」

這種設定的初衷是避免 Deepfake 争議。今年 1 月，人工智能初創公司 ElevenLabs 的語音克隆技術被用來冒充美國總統拜登，欺騙了新罕布什爾州的初選選民，引發了不小的争議。

OpenAI 還表示，已經引入了新的過濾器來阻止某些生成音樂或其他受版權保護音頻的請求。

去年，很多圖像生成、音樂生成的 AI 公司因侵犯版權而陷入了法律糾紛，尤其是喜歡打官司的唱片公司，已經起訴過人工智能音頻生成器 Suno 和 Udio。而 GPT-4o 這樣的音頻模型則讓可以提出投訴的公司增加了一個全新的類别。

據說，OpenAI 與 45 種語言的 100 多名外部「紅隊」成員一起測試了 GPT-4o 的語音功能。而這些關鍵資訊，将在 8 月份一份關于 GPT-4o 的功能、局限性和安全評估報告中有更詳細的公布。

參考連結：

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant