天天看点

具身智能在工业领域落地再探一城

具身智能在工业领域落地再探一城

出品 | 虎嗅智库

作者 | 黄思语

头图 | 视觉中国

在产业转型、新质生产力涌来的当下,具身智能携带一系列前沿技术,如大模型、多模态大模型、视觉/触觉小模型等进入了工厂,踏上了工业制造领域的实践征程。然而,复杂多样的工业场景给具身智能带来了严峻挑战。究竟从哪个场景率先切入?怎样才能在不同场景中自如切换?其智能系统所需的广泛且高质量的数据又该如何获取?

由此,2024 年 7 月 30 日晚 7 点,虎嗅智库502线上同行邀请到上海人工智能技术协会首席顾问尹智、他山科技生态总监付宜晖以及微亿智造 CTO 赵何博士,共同探讨了大模型在具身智能领域的创新应用,并分享具身智能和人形机器人的实际应用案例。

具身智能与大模型的融合及技术挑战

具身智能的最佳载体是人形机器人,其增长依赖大模型

大模型与具身智能的结合已有一定成果且前景广阔。上海人工智能技术协会首席顾问尹智表示大模型可作为机器人大脑,具备规划推理能力,能将目标分解为子目标并调用相关函数,虽当前发挥有限,但方向极具潜力。

微亿智造CTO 赵何博士认为人形机器人在工业场景中,因其工作性质,非人形可能更合适;在生活场景则可能是较好形态。

大模型颠覆了人机交互方式,使人机可用文字、语音、图片等自然方式交流,机器能理解人的意图并执行操作,这是重大突破。大模型提供高效交互,让机器人能学习新任务,获取具体要求和操作规范。

他山科技生态总监付宜晖赞同大模型赋能具身智能,他表示人形机器人是具身智能的最佳载体,其增长依赖大模型发展。打造类人思考和运动的人形机器人不仅靠大模型,还涉及深度学习、运动控制算法和整体感知,如触觉感知、视觉感知、以及理解复杂环境及逻辑推理的能力等。

近期提到的空间智能,是让机器人看见这个世界的基础上,能够使机器人更好的理解这个世界,并且在观察世界中学习知识并做出行动。那么在这个的大前提下,做到具身感知real2sim(仿真环境中训练好的模型应用到真实环境中的过程),让机器人更好的感知世界,是做个更灵活机器人的前提。

大模型嵌入具身智能体 需平衡能耗和收益

有观众提出“大模型嵌入到智能机器人,是否需要额外的一些硬件的支持?是否需要重新平衡性能的表现和能源的开销?

赵何博士认为这是一个好问题。大模型嵌入智能机器人时,需要考虑硬件支持以及性能表现和能源开销的平衡。广义上的具身智能体,包括人类在内,都需要平衡能量消耗与所获效益,如人的大脑功耗小但聪明。而当前大模型在训练和推理时对算力和能源的消耗,无法满足智能机器人的需求。

未来发展方向,一是大幅通过技术降低大模型对算力和能源的消耗,二是从模型架构和范式上改进,三是开发专用芯片,如 ASIC,提升智能密度,即单位面积芯片上的智能程度,通过软件硬化,用开发的专用芯片进行模型推理等,从而将大模型技术有效应用于具身智能机器人。

多模态大模型将是具身智能实现操控、决策等技术突破的重要模块

在具身智能的操控、决策、导航等关键技术方面,尹智认为当前基于大语言模型驱动机器人存在需将信息转换为文字再处理的问题,这只是暂时过渡,未来应是机器人对原生感知环境进行操控决策,导航也无需经过语言,视觉中将存在大量逻辑。

未来大模型可能会以多模态统形态来提升智能能力,像人类大脑一样有负责不同功能的模块。当前可能是多个小模型分别控制不同功能,大模型指挥机器人是过渡形态,多模态大模型是趋势但还需时间,可能先通过小模型组合与大模型配合来提升智能能力,这取决于大模型的发展,目前多模态原生大模型数据还有些缺乏。

赵何指出在操控上,工业机器人引入视觉伺服能打通底层控制与上层任务,大幅降低应用成本;在导航方面,前提是感知,包括触觉、温度等多模态信息,但多模态信息的有效融合在技术上有较大挑战,却是积极的发展方向。经多模态多人对话让机器理解人的意图和任务要求,完成柔性切线,这将是革命性进步,还能为更加智能的工业机器人提供基础智能的标准,实现标准化生产和现场柔性适配。

付宜晖赞同赵何博士的观点,他提到,为人形机器人提供触觉传感器时,面临触觉数据与视觉数据融合的问题,以及高精度感知、复杂决策、鲁棒性等问题,其中触觉数据与多模态感知数据融合是突破具身感知的关键。具备触觉感知数据的多模态大模型有助于机器人在复杂场景的交互,传统算法虽然经历大量的训练可以实现部分场景落地,但仍然会存在没有训练过的场景,面临小概率场景难以覆盖,泛化能力较低的问题。

具身智能在工业领域的落地场景与价值体现

工业制造应用场景以解决柔性切线入手

工业机器人应用已久但多为自动化方式,存在调试复杂、成本高、效率低等问题,智能化的核心是解决柔性切线问题。赵何分享了多个具体的工业应用案例,例如在装配线环节,帮助客户解决切线成本高、调产线困难的问题。原本调产线需要三个工程师花费近一个礼拜,才能使整个产线满负荷运转,而使用智能工业机器人技术有望改善这一状况。

在质检环节,为一个 3000 多人的大厂提供基于 AI 技术的外观质检机器,成功替换了 2000 多名质检工人,不仅降低了人力成本,而且机器性能不逊于人工,还能 24 小时不间断工作。

在缺陷检测后的后处理环节,针对压铸件修复环节中工人盲打导致的效率和质量问题,使用智能工业机器人技术,通过缺陷检测、轨迹规划以及打磨等一系列操作,将多个机器人配合形成智能工作站,解决了人工操作的局限性,对大型压铸件的工艺流程产生了积极影响。

具身智能强大的柔性切线能力将提高工业制造生产效率

企业效能提升体现在人力成本和生产运营效率两方面。付宜晖指出,从人力成本看,当机器人价格能更好覆盖人力成本时,是商业化落地的节点,人形机器人产业可能比汽车工业市场更大。在生产效率上,机器人可 24 小时不间断工作,学习效率远超人类,通过优化决策和精准控制能提升工厂或商业运营效率。

赵何认为制造业通用痛点一是人的问题,如招人难、熟练工人留不住,企业希望减少对人工的依赖并降低成本。微亿智造为3000 多人的大厂做基于 AI 技术的外观质检机器,替换了 2000 名质检工人,降低人力成本,且机器性能不比人差,还能 24 小时运转。

二是柔性切线成本高,生产和供销模式变化,小批量、多批次订单增加,传统生产模式无法满足市场需求,需要智能工业机器人等智能生产设备具备快速、低成本的柔性切线能力,以应对制造业新痛点,为企业赋能提高生产效率。

优先危险场景落地,随着泛化能力增强进入更复杂场景

具身智能机器人优先落地的场景存在不同观点。尹智认为制造业已大量使用具身智能设备,如机械臂、物流机器人等,未来会更多应用于制造行业的组装、物流、仓储环节,服务机器人也会日益普遍,包括家居、商场、小区等场景,自动驾驶车也是一类。他觉得应先从人类不愿干、不适合干或危险枯燥的工作入手。

付宜晖认为不能简单按工业、商业、家庭的顺序理解,最先落地的应是场景和能力需求相对单一的,如汽车产线中车内线束安装接线仍依赖人工,需人形机器人触觉及多模态感知融合解决;商业场景中如药店替代店员抓药、超市换货补货、加油站加油充电等,还有危险或特殊的应用场景,能把从事危险工作的人替换出来,最终随着人形机器人泛化能力增强,会进入更复杂的家庭协作交互场景。

具备快速采集学习、提高泛化能力将能解决众多复杂场景问题

关于如何提高各种技能的泛化和通用能力以实现在不同场景下的应用,付宜晖从触觉感知角度出发,通过真实场景采集触觉相关数据并推进模拟仿真进行训练,以提升机器人灵巧操作和抓取的泛化能力,在工业场景中,面对复杂多样的被抓物体,需提高触觉或抓取能力的泛化性来解决问题。

赵何认为目前不存在让机器人无需再学习就能做所有事情的方法,在工业场景中,泛化和通用能力体现在基础智能上,即通过大模型等技术让机器人具有快速学习新任务技能的能力,若能实现这一点,对智能工业机器人在工业中的应用是革命性进步。

付宜晖认为人形机器人需要思维链思考的能力,需要具备一定泛化性,来实现机器人应对各个场景的需求。如谷歌RT2整合了LLM与视觉Transformer,做到感控一体,判断环境及意图的基础上,做出最优的行动策略,来提高机器人的执行能力。

具身智能的数据采集与训练方式探索

有观众提问关于如何获取大量数据,有没有一些创新的方式来获取?赵何认为工业互联网的发展客观上为工业大模型的诞生积累了数据,在实际落地应用中,应把数据的收集、整理和自动化、智能化运营贯彻到产品和服务中,将其作为核心要点。

目前具身智能还没有成熟且广泛被接受的训练方式。以智能工业机器人为例,期望通过人工视频视觉等方式让大模型理解任务并生成控制指令。

具身智能的训练方法上,更多是在仿真环境下训练具身智能体,或用仿真、生成的数据来训练。因为用实际数据训练具身智能模型或智能机器人存在数据采集难和数据量达不到要求的问题。

尹智提出,有第三方专业的数据服务商,如数据标注公司,未来可能进化为 AI 训练师或服务提供公司。在中国,人力成本方面优势较为明显,有望在多模态数据和智能训练服务上形成产业。

给语

具身智能与大模型的融合,尽管已取得一定成果,但如何进一步优化能耗与收益的平衡,实现多模态大模型的成熟应用,仍需持续攻关。从解决关键的柔性切线问题,到提升泛化能力以适应复杂多样的工业环境,建立成熟有效的训练方式,或充分利用第三方数据服务的优势,都是推动具身智能在工业领域广泛应用的关键。

在整场活动中,线上参会观众积极参与互动交流,既有来自奥迪中国、蔚来、理想、东风、施耐德电气、亚马逊云科技、地平线机器人、华为终端、百度、中国电信等企业人士,也有来自中金资本、鼎捷软件战投、华软股份、亦庄国投、联通产业物联网等机构人士。与会观众与嘉宾们展开深入对话,交流实践经验,探讨业务合作,圆满结束了本次502线上同行研讨活动。

追踪更多数字化、AI创新实践活动,欢迎前往虎嗅智库完成注册即可接收我们的内容更新与活动通知。

关于虎嗅智库:

虎嗅智库是一家聚焦企业数字化、AI创新实践的新型研究服务机构,为产业智能化进程中的甲乙双方,提供有洞察性的研究报告、案例评选、以及线上会议、线下活动与参访服务,以支持企业高管在智能化、数字化方面的明智决策。

我们提供的核心价值:

及时与优质的洞察,了解技术、了解行业、了解同行与对手;

为决策者技术与产品战略决策、产业规划、解决方案选型提供重要参考;

帮助市场全面了解前沿科技及所影响产业的发展状况,还有未来趋势

正在改变与想要改变世界的人,都在 虎嗅APP

继续阅读