文丨天晴了
今天,大家等了很久的 OpenAI 的 GPT-4o 高级语音功能,突然发布。
就在谷歌前脚刚刚宣布推出 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 后。
毫秒级 ChatGPT “Her” 高级语音模式,终于全面向 Plus 订阅用户开放!用户可以像与朋友互动一样,感受到高级语音对话真人般流畅自然。
OpenAI 突然开放 GPT-4o高级语音
今天凌晨两点,OpenAI 宣布高级语音模式今日起开始向订阅用户推出。
OpenAI 貌似在高级语音模式的视频 Demo 中设计了“花式道歉”的彩蛋。
视频 Demo 中,GPT-4o 用一口流利的中文说“奶奶对不起,我迟到了,我不是故意让您等这么久的”,仿佛是在和用户们道歉,要知道,GPT-4o 可是迟到了将近半年的时间才正式推出。网友表示:原谅。
OpenAI 还特意提了一嘴,用户可以让它用50多种语言说“对不起,我迟到了。”
OpenAI GPT-4o 此次升级提高了在特定外语中的对话速度、流畅性和口音,交互的自然性和流畅度大幅提升。
高级语音功能具有真人般的情绪情感表达,对话自然、语气丰富,可以达到与人类一样的反应速度,做到随时被打断,用户的满意度也达到了新高!
OpenAI 此次发布的一个重要亮点是,高级语音模式可以自定义指令,具有记忆功能,能提供个性化定义。
在视频中,OpenAI 研究员表示,用户可以自定义指令,让模型以某种口音发音、记住事件以及用户想要如何被称呼等。
另一个视频中,OpenAI 负责模型设计的 Drew 表示,他在工作时,会让 GPT-4o 静静地开着,当不与它交谈时它很安静,等有问题时就会提问,然后围绕这个问题会展开一场长对话。大多数情况下,Drew 会把它当作坐在身边的朋友,能为他提供信息,交流想法。
有网友用它当法语陪练,其发音得到法语母语者十分认可,还有网友用它讲故事助眠……
高级语音模式因为对语音反应时间更敏感,在某些嘈杂的场景下,也更容易被打断。
此外,GPT-4o 还改进了口音,增添了五种新的音色,分别是:Vale、Spruce、Arbor、Maple、Sol。之前广受好评,与电影《Her》中饰演 AI 恋人的斯嘉丽・约翰逊的声音相似的sky音色,因受到质疑和批评,已被删除,彻底消失不见。
OpenAI表示,将在一周内向所有ChatGPT Plus和Team用户推出。欧盟、英国、瑞士、冰岛、挪威和列支敦士登除外,尚不提供。
目前,高级语音对话仅适用于 ChatGPT Plus 和 Team 帐户的用户,免费用户可以访问标准语音模式。
不过,Plus 和 Team 用户每天仍然有高级语音的使用限制,并且每日限制可能会发生变化。当一天的高级语音还剩 15 分钟时,OpenAI 会向用户发出通知。
当然还有一些需要注意的,如果用户从文本或标准语音模式切换到高级语音模式后,将无法返回到之前的文本或标准语音对话状态。
目前,高级语音对话还未对 GPTs 开放。用户只能与 GPTs 进行标准语音对话。GPTs 拥有自己独特的语音选项,名为 Shimmer。
尽管语音模式已经为用户带来了全新的交互体验,但OpenAI 未停下脚步。
根据 OpenAI 团队透露,备受期待的“视频与屏幕共享功能”也快要上线,到时候 ChatGPT 将不再只是语音伙伴,它还会成为用户的第三只眼睛!
据悉,此功能已经进入最后的测试阶段,至于何时推出该功能,OpenAI 尚未明确。
谷歌Gemini升级两款新模型,价格减半,速率提升
5 月,Google 发布 Gemini 模型的大更新前,OpenAI 就曾提前抢开发布会,宣布很快会带来高级语音模式,登上媒体头条“个人助理 Her 就要来了吗?”
今天OpenAI也是强行截胡Google。
就在今早,OpenAI 发布GPT-4o前,Google 发布两款新模型 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。
在谷歌的系列模型中,Gemini Pro 属于中号模型,付费用户可以使用。而 Gemini Flash 则在今年 5 月的 Google I/O 上第一次亮相,目前用户可以免费在 Gemini 中使用,开发者也有一定免费的 API 使用配额。
此次Google模型升级的重点主要为 1.5 Pro 价格降低 >50%(Gemini 1.5 Pro 的输入 token 价格降低 64%,输出 token 价格降低 52%,增量缓存 token 价格降低 64%,适用于小于 128K token 的提示语,自 2024 年 10 月 1 日起生效),1.5 Flash 的速率限制提高了 2 倍,从 1000 RPM 提高到 2000 RPM。
1.5 Pro 的速率限制提高了约 3 倍,从 360 RPM 提高到 1000 RPM、输出速度提高 2 倍,延迟降低 3 倍,过滤器切换为选择加入。
Google 表示,此次模型在数学、长上下文窗口和视觉方面取得了一定的进步。
在更具挑战性的 MMLU-Pro 基准测试中,大约能看到 7% 的性能提升。
而在数学和 HiddenMath(一个内部保留的数学竞赛问题集)基准测试中,两个模型都取得了约 20% 的显著进步。
对于视觉和代码使用场景,两个模型在评估视觉理解和 Python 代码生成的测试中表现也更好,提升范围在约 2-7% 之间。
Gemini 模型本身的亮点包括长上下文和多模态功能。由于 Gemini Flash 对开发者有部分免费额度,新更新可能对于开发某些应用有着很好的效果。
X 上的前群邑集团亚太区首席执行官 AshutoshSrivastava 就表示,他使用 Google Flash 构建了一个应用,能够在 1 分钟内转写 13 分钟的长音频,且准确度很高(且免费)。在另一个应用中,他表示目标探测功能的表现也很不错。
从 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 的名字也可以看出,此次 Google Gemini 的更新,不是一个大版本的更新,更多的是一次整体模型的升级。
部分网友看了谷歌的这波更新,觉得这并不值得被 OpenAI狙……
OpenAI的GPT-4o更新,没有新增过于亮眼的功能,甚至也没有完成五月份发布会上的功能承诺(免费提供给所有用户使用,以及跨越音频、视频和文本的实时推理等内容),早有预热的全量推送倒更像定点狙击 Google 新模型的产物。
有趣的是,此次 Gemini 的发布,是由 Google 的 Logan Kilpatrick 主要负责对外沟通交流。
而 Logan Kilpatrick,正是 OpenAI 前开发者关系负责人,并在2024 年跳槽 Google。
而转头,此次 Google 发布新模型,OpenAI 就碰瓷发布高级语音GPT-4o。
OpenAI 此次宣布的时间点或许还有另外一个意义——此前外媒报道称,Meta 公司本周将在 Meta AI 中推出名人语调的音频对话功能。
市场竞争依旧热火朝天,这种狙击是不是要成为日常 —— 前有某为持续正面硬刚苹果,后有OpenAI不断硬核碰瓷Google。
好在,不管竞争如何,科技确实推动了技术发展。
未来,我们与 AI 的互动将不再局限于语音,还包括视频、屏幕共享等更复杂的功能应用,他们甚至将会成为我们理想的AI助手,AGI 时代或即将到来,是不是更觉得未来可期了呢?