天天看点

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

作者:休闲荒野

IT时报记者 孙妍

6月27日,科大讯飞发布讯飞星火大模型V4.0,并宣布整体超越GPT-4 Turbo,在8个主流测试集中排名第一。

不仅在性能上比拼硬实力,科大讯飞还秀了一把生态的肌肉。在发布会现场,科大讯飞第一次将汽车开上了舞台,昊铂、魏牌、红旗三款搭载星火座舱的智能汽车也占据了展厅的C位。众所周知,科大讯飞是从语音识别起家,现今已能实现74个语种和方言的免切换对话,在多人同时说话等强干扰场景下的识别难题也一并解决,将此云边端及软硬一体化解决方案布局在汽车、家电、机器人等人机交互场景中。

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

大模型产品化一直是最能体现科大讯飞落地能力之处。此次,讯飞星火升级了App/Desk,在“个人空间”植入更懂用户的AI助手。AI助手将无处不在,在教育中,它能变身为星火智能批阅机,帮老师批改作业;在学习中,它能变身为讯飞AI学习机,一对一答疑解惑;在医疗中,它能变身讯飞晓医App,帮你看懂病历和体检报告,成为个人的AI健康助手……

而在“人工智能+”落地的最后一公里,科大讯飞发布星火企业智能体平台,推出星火商机助手、星火评标助手等智能体案例。这一切变化,都宣告着大模型个性化时代的到来!

毋庸置疑,国内AI大模型产业具有极强的生态落地能力,但是全世界都在关注,中国大模型的底座实力到底怎么样?从英伟达的断供到Open AI的断连,国产大模型深刻地认识到,“到底有没有自主可控的国产底座能力做支撑,这决定了我们在这条路上到底能走多远?人工智能浪潮相当于PC和互联网的诞生,我们能不能成为美国之后全球智慧涌现的第二极?”科大讯飞董事长刘庆峰在发布会开场,就抛出了两个宏大的问题。

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

中国大模型底座实力几何?

讯飞星火V4.0整体超越GPT-4 Turbo

讯飞星火大模型V4.0七大核心功能实现升级,全面对标GPT-4 Turbo,在本文生成、语言理解、知识问答、逻辑推理、数学能力等方面整体超越。

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

在国内外12项大模型主流测试集中,讯飞星火在8个测试集中排名第一,超越GPT-4 Turbo等国际大模型,也领先于国内大模型。

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

讯飞星火V4.0的图文识别能力进步了,在科研、金融、医疗、司法、办公等场景的应用效果已领先GPT-4o。针对长文档知识问答的幻觉问题,讯飞星火在业界首发溯源功能,答案可以找到出处。

难得的是,讯飞星火大模型V4.0是基于全国首个国产万卡算力集群“飞星一号”训练的,这也体现了讯飞星火底座的自主可控性。

自去年9月全面开放以来,讯飞星火App在安卓公开市场累计下载量达1.31亿次,在国内工具类通用大模型App中排名第一。今年618大促,星火大模型加持的智能硬件销量同比增长超70%,月均使用次数超4000万。

“Bob在客厅里。他拿着一个杯子走到厨房。他把球放进杯子里,然后拿着杯子走到卧室。他把杯子倒过来,然后走到花园。他把杯子放在花园里,然后走到车库。问题:球在什么地方?”在现场,讯飞星火V4.0答对了这道较为复杂的空间推理题,答案是“球在卧室的地面上”。

从AI大模型到具身智能到底还有多远?从AI大模型的空间推理“智商”就可见一斑。

数百万硬件用户 一键拥有AI私人助手

AI助手被认为是第一个刚需的C端大模型应用场景,但现在的AI大模型已经够格成为一位私人助手了吗?

私人助手的第一要义是要“懂你”,刘庆峰提出,AI助手要基于用户画像进行个性化表达,基于使用历史进行记忆学习,基于个人资料进行增强学习。

升级后的讯飞星火App新增“个人空间”,用户可以上传自己的工作、学习、生活、健康等各类资料,形成每个人的专属知识库,再设定人设,让大模型成为你的“分身”。

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

科大讯飞研究院院长刘聪现场演示“个人空间”效果,当他上传了女儿写的小作文并选取符合女儿风格的AI人设标签后,星火生成了一篇文风活泼,带有可爱表情的文章;当他上传了讯飞翻译机的产品海报、用户短视频、相关录音,星火也可以根据这些多模态信息生成产品培训文档,还可以对生成的信息进行多模态溯源。

更具意义的事,讯飞星火大模型打通了讯飞全系列C端硬件产品生态,数百万智能硬件用户将一键拥有“星火全家桶”。比如讯飞智能录音笔、智能办公本的文件可以一键同步到星火个人空间,通过数据互通形成操作联动,当你将一篇办公本里的会议记录同步到星火个人空间后,就可以让星火进行公文写作,它还会帮你做PPT,生成待办事项等。

74个语种方言“自由对话”

破解强干扰场景下语音识别难题

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

在发布会现场,有一幕演示让观众捧腹大笑,又觉高能炸裂:三个人肩并肩站着,在非常近的距离下,三人互相不被干扰地念着稿子,几乎是用相同的分贝,正常人耳已经难以听清,只见讯飞星火不但将三人重叠的角色分离,还能实时准确地写出每个人说的话。

这一幕背后的技术是基于多模态声音识别,将应用在讯飞听见智慧办公、智慧屏等会议办公产品中。

近期,科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目,获得国家科学技术进步奖一等奖。

发布会上,科大讯飞再出“王炸”,宣布实现74个语种方言的“自由对话”,包含37个语种、37种方言。其中,37个语种识别效果领先OpenAI whisper-V3,37个方言识别效果平均提升30%。

基于此,科大讯飞又发布了软硬件一体的讯飞同传系统,适用于大会、会议、展厅、旅游等场景,参会者戴上耳机,就能实时收听多语种的AI同声传译。

下载量超1200万 AI“家庭医生”成刚需

向C端全面开放以来,讯飞晓医App成为AI刚需应用,累计下载量1200万,主动推荐率42%。

在医疗领域,讯飞星火医疗大模型的核心能力已经全面超过GPT-4 Turbo和GPT-4o。此次升级后,讯飞晓医App覆盖1600种常见疾病、2800种常见药品、6000种常见检查检验,看病前、用药时、检查后都能用。

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

讯飞晓医App也上线了“个人数字健康空间”,它能够根据电子病历、检查报告、体检报告等用户资料,在看病前进一步剖析病症原因,用药时给出药物禁忌的个性判断,在检查后联合对比给出数据变化,并通过角色切换,了解其他家庭成员的健康状况。

至于用户关注的数据安全问题,目前讯飞晓医App已通过数据安全与隐私保护的多类权威认证。

在当前医疗资源相对匮乏的情况下,讯飞晓医App等AI健康应用有效缓解了社会对医疗服务的迫切需求,让每个人都能拥有“家庭医生”。

“会做题的大模型” 助老师批作业负担下降90%

今年中高考真题实测中,讯飞星火语数外各科“成绩”均排名领先。在科研上,讯飞星火助力中国科学技术大学刘海燕教授团队,将蛋白质设计成功率从0.1%提升到20%,设计所需时间从6个月降到1天。它也赋能每个人,帮助一位不懂法律知识的70岁老人顺利要回养老钱欠款、帮助一位听障人士圆了文学梦······

那么,这位“更会做题的大模型”会辅导学生吗?讯飞AI学习机升级 AI 1对1 答疑辅导功能,既能进行多模态启发式讲解、自由问个性化解答,也可以进行互动探究式学习、超拟人引导式伴学等,让孩子多了一位“AI辅学老师”。数据显示,相比较传统解题视频学习,AI答疑辅导的学习方式让孩子的学习完成率提高到90%,错题解决率提升到93%。

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

一台打印机加上一个电脑屏幕的设备,竟然是一台能帮老师批改作业的机器,15份学生作业,半分钟批改完成。

将作业放进星火智能批阅机里,它能自动扫描作业,不限纸张大小,模仿真人笔迹,吐出来的作业已经批改完成。

批改完后,它还能分析每位学生的掌握情况,形成学习报告,自动生成作业讲解课件。有了这位AI助手,老师们再也不用忧虑作业批不完,原先要90分钟才能批改完的作业,现在只要5分钟就能完成;人工分析学情要60分钟,现在只要1分钟就能完成;在因材施教和科学分析下,学生的错题解决率从50%提升到73%。

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo

星火企业智能体 打造每个岗位的专属AI助手

除了开头提到的星火座舱连接的奇瑞汽车、中国一汽、大众汽车、江汽集团外,讯飞星火大模型正在为更多企业打造专属AI助手,覆盖国家能源集团、中国石油、中国移动、中国人保、太平洋保险、交通银行、海尔集团、美的集团等多领域头部企业。

在这些企业中,AI可能是会写代码的工程师,会打电话的客服,也可能负责合规审查、评标等。在交通银行,星火大模型的代码产品iFlyCode覆盖6000多名研发人员,代码采纳率达38%。

如何解决企业大模型应用的最后一公里问题?星火企业智能体应运而生,已覆盖400多项AI原子能力,集成90多个外部信源,打通100多个内部IT系统,企业可以结合自身的业务场景快速落地智能体。32个企业智能体分布在生产域、科创域、办公域、管理域等,可以即插即用。

为了给企业打个样,科大讯飞打造了星火商机助手、星火评标助手等,星火商机助手可以实现商机线索应知尽知、客户拜访提质增效、销售管理智能研判。星火评标助手通过标前寻源、智能评标、定标审核等功能,智能评标结果人机一致率达98%,投标异常检出率超过80%,在大幅提升企业评标效率同时降低采购成本。

讯飞星火大模型到底好不好用?生态强不强大?从开发者数量可见一斑。从自今年1月30日发布讯飞星火V3.5以来,短短5个月,星火开发者数量从598万增长到702万,海外开发者数量超40万,大模型开发者达57万。

刘庆峰说,只有自主可控的繁荣生态,才有中国通用人工智能的大未来。面向未来的人工智能新生态,他强调要关注源头技术生态、智能体生态、应用生态和行业生态,实现自主可控和软硬一体,才能实现大模型的深度落地;既要科学理性地认识中美在大模型上的综合差距,也要有信心快速追赶,给出从源头技术、到产业生态、再到应用落地的一整套的打法,以长期主义来打造真正自主可控的AI产业生态。

人人都有AI私人助手的时代来了!讯飞星火V4.0整体超越GPT-4 Turbo