硬核碰瓷Google，OpenAI突然发布高级语音GPT-4o

文丨天晴了

今天，大家等了很久的 OpenAI 的 GPT-4o 高级语音功能，突然发布。

就在谷歌前脚刚刚宣布推出 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 后。

毫秒级 ChatGPT “Her” 高级语音模式，终于全面向 Plus 订阅用户开放！用户可以像与朋友互动一样，感受到高级语音对话真人般流畅自然。

OpenAI 突然开放 GPT-4o高级语音

今天凌晨两点，OpenAI 宣布高级语音模式今日起开始向订阅用户推出。

OpenAI 貌似在高级语音模式的视频 Demo 中设计了“花式道歉”的彩蛋。

视频 Demo 中，GPT-4o 用一口流利的中文说“奶奶对不起，我迟到了，我不是故意让您等这么久的”，仿佛是在和用户们道歉，要知道，GPT-4o 可是迟到了将近半年的时间才正式推出。网友表示：原谅。

OpenAI 还特意提了一嘴，用户可以让它用50多种语言说“对不起，我迟到了。”

OpenAI GPT-4o 此次升级提高了在特定外语中的对话速度、流畅性和口音，交互的自然性和流畅度大幅提升。

高级语音功能具有真人般的情绪情感表达，对话自然、语气丰富，可以达到与人类一样的反应速度，做到随时被打断，用户的满意度也达到了新高！

OpenAI 此次发布的一个重要亮点是，高级语音模式可以自定义指令，具有记忆功能，能提供个性化定义。

在视频中，OpenAI 研究员表示，用户可以自定义指令，让模型以某种口音发音、记住事件以及用户想要如何被称呼等。

另一个视频中，OpenAI 负责模型设计的 Drew 表示，他在工作时，会让 GPT-4o 静静地开着，当不与它交谈时它很安静，等有问题时就会提问，然后围绕这个问题会展开一场长对话。大多数情况下，Drew 会把它当作坐在身边的朋友，能为他提供信息，交流想法。

有网友用它当法语陪练，其发音得到法语母语者十分认可，还有网友用它讲故事助眠……

高级语音模式因为对语音反应时间更敏感，在某些嘈杂的场景下，也更容易被打断。

此外，GPT-4o 还改进了口音，增添了五种新的音色，分别是：Vale、Spruce、Arbor、Maple、Sol。之前广受好评，与电影《Her》中饰演 AI 恋人的斯嘉丽・约翰逊的声音相似的sky音色，因受到质疑和批评，已被删除，彻底消失不见。

OpenAI表示，将在一周内向所有ChatGPT Plus和Team用户推出。欧盟、英国、瑞士、冰岛、挪威和列支敦士登除外，尚不提供。

目前，高级语音对话仅适用于 ChatGPT Plus 和 Team 帐户的用户，免费用户可以访问标准语音模式。

不过，Plus 和 Team 用户每天仍然有高级语音的使用限制，并且每日限制可能会发生变化。当一天的高级语音还剩 15 分钟时，OpenAI 会向用户发出通知。

当然还有一些需要注意的，如果用户从文本或标准语音模式切换到高级语音模式后，将无法返回到之前的文本或标准语音对话状态。

目前，高级语音对话还未对 GPTs 开放。用户只能与 GPTs 进行标准语音对话。GPTs 拥有自己独特的语音选项，名为 Shimmer。

尽管语音模式已经为用户带来了全新的交互体验，但OpenAI 未停下脚步。

根据 OpenAI 团队透露，备受期待的“视频与屏幕共享功能”也快要上线，到时候 ChatGPT 将不再只是语音伙伴，它还会成为用户的第三只眼睛！

据悉，此功能已经进入最后的测试阶段，至于何时推出该功能，OpenAI 尚未明确。

谷歌Gemini升级两款新模型，价格减半，速率提升

5 月，Google 发布 Gemini 模型的大更新前，OpenAI 就曾提前抢开发布会，宣布很快会带来高级语音模式，登上媒体头条“个人助理 Her 就要来了吗？”

今天OpenAI也是强行截胡Google。

就在今早，OpenAI 发布GPT-4o前，Google 发布两款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。

在谷歌的系列模型中，Gemini Pro 属于中号模型，付费用户可以使用。而 Gemini Flash 则在今年 5 月的 Google I/O 上第一次亮相，目前用户可以免费在 Gemini 中使用，开发者也有一定免费的 API 使用配额。

此次Google模型升级的重点主要为 1.5 Pro 价格降低 >50%（Gemini 1.5 Pro 的输入 token 价格降低 64%，输出 token 价格降低 52%，增量缓存 token 价格降低 64%，适用于小于 128K token 的提示语，自 2024 年 10 月 1 日起生效），1.5 Flash 的速率限制提高了 2 倍，从 1000 RPM 提高到 2000 RPM。

1.5 Pro 的速率限制提高了约 3 倍，从 360 RPM 提高到 1000 RPM、输出速度提高 2 倍，延迟降低 3 倍，过滤器切换为选择加入。

Google 表示，此次模型在数学、长上下文窗口和视觉方面取得了一定的进步。

在更具挑战性的 MMLU-Pro 基准测试中，大约能看到 7% 的性能提升。

而在数学和 HiddenMath（一个内部保留的数学竞赛问题集）基准测试中，两个模型都取得了约 20% 的显著进步。

对于视觉和代码使用场景，两个模型在评估视觉理解和 Python 代码生成的测试中表现也更好，提升范围在约 2-7% 之间。

Gemini 模型本身的亮点包括长上下文和多模态功能。由于 Gemini Flash 对开发者有部分免费额度，新更新可能对于开发某些应用有着很好的效果。

X 上的前群邑集团亚太区首席执行官 AshutoshSrivastava 就表示，他使用 Google Flash 构建了一个应用，能够在 1 分钟内转写 13 分钟的长音频，且准确度很高（且免费）。在另一个应用中，他表示目标探测功能的表现也很不错。

从 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出，此次 Google Gemini 的更新，不是一个大版本的更新，更多的是一次整体模型的升级。

部分网友看了谷歌的这波更新，觉得这并不值得被 OpenAI狙……

OpenAI的GPT-4o更新，没有新增过于亮眼的功能，甚至也没有完成五月份发布会上的功能承诺（免费提供给所有用户使用，以及跨越音频、视频和文本的实时推理等内容），早有预热的全量推送倒更像定点狙击 Google 新模型的产物。

有趣的是，此次 Gemini 的发布，是由 Google 的 Logan Kilpatrick 主要负责对外沟通交流。

而 Logan Kilpatrick，正是 OpenAI 前开发者关系负责人，并在2024 年跳槽 Google。

而转头，此次 Google 发布新模型，OpenAI 就碰瓷发布高级语音GPT-4o。

OpenAI 此次宣布的时间点或许还有另外一个意义——此前外媒报道称，Meta 公司本周将在 Meta AI 中推出名人语调的音频对话功能。

市场竞争依旧热火朝天，这种狙击是不是要成为日常 —— 前有某为持续正面硬刚苹果，后有OpenAI不断硬核碰瓷Google。

好在，不管竞争如何，科技确实推动了技术发展。

未来，我们与 AI 的互动将不再局限于语音，还包括视频、屏幕共享等更复杂的功能应用，他们甚至将会成为我们理想的AI助手，AGI 时代或即将到来，是不是更觉得未来可期了呢？

硬核碰瓷Google，OpenAI突然发布高级语音GPT-4o

继续阅读

《连线》调查：大量开发者无缘OpenAI GPT Store分红，但有机会赚钱

AI连摘诺奖后：AI教父Diss OpenAI，马斯克借机拉踩，端到端怎么走

2029年才能盈利？留给OpenAI的时间不多了

OpenAI 发布实时 API，AI 实时语音时代如何抢占风口？

OpenAI惊天剽窃！20岁创始人自曝代码结构被抄袭，多智能体陷争议

从非营利组织到估值1570亿万美元的子公司，OpenAI是怎么做到的

微软AI老将叛逃，但OpenAI面对新威胁：前CTO或创业挖人！

游戏科学跃居 Steam 发行商收入榜前列；Adobe 推出 AI 视频生成器，迎战 OpenAI 和 Meta；小鹏 P7+预售价 20.98 万元起，订单已超 3 万｜极客早知道

深度：OpenAI大清洗

OpenAI进军国防的幕后帮手：年入160亿美元，狂揽美国政府大单

比OpenAI还早4个月？这款产品如何为专业创作带来全新体验

英伟达开源新王登基！70B刷爆SOTA，击败GPT-4o只服OpenAI o1

微软将终止中国个人 Azure OpenAI 服务，仅企业客户可用

Google 最出圈的 AI 产品，把 OpenAI CEO 也惊艳了

OpenAI o1与人工智能的过去与未来

AI周报 | 字节跳动大模型训练被“投毒”；微软将终止中国个人Azure OpenAI服务