大数据文摘授权转载自机器人大讲堂
作者:Jack
2023年IEEE机器人与自动化国际会议(ICRA2023)上,不仅出现了许多令人耳目一新的前沿机器人产品,还相较以往诞生了更多更专业的机器人相关前沿论文。这些产品和论文分别展示和论述了机器人领域最新的研究成果和发展趋势,为产学研界提供着一个个探讨机器人技术最新进展的重要方向。
深度学习和触觉反馈作为近年来机器人机热度颇高的领域,在本次会议论文中的占比非常大。我们在相关内容中,挑选了机器人深度学习领域几篇颇具代表性的论文进行展开综述性解读,为国内机器人从业者和研究者提供一些新的思路。
值得注意的是,在这些论文中,有绝大多数的研究者选择了采用Franka机器人进行实验验证。
细分领域关注度日益提升
近年来,强化学习(Reinforcement Learning,简称RL)已经成为机器人+机器学习一个颇具前景的领域。
强化学习(RL)技术可以帮助研究者进一步优化机器人行为,提高机器人灵活性,使机器人在面对变化的环境时更加灵活,适应不同的环境和任务。
同时,强化学习(RL)还能提供一种开发自主机器人的途径,这种机器人可以在最少的人类干预下掌握某些独立行为,这大幅拓展机器人应用领域,使机器人可以在如家务、食品制备、组件组装等更多领域得到应用。
为此,针对强化学习(RL)的各个细分领域研究正在紧锣密鼓地展开。本次ICRA2023论文中,非常多强化学习(RL)延伸的概念和思路正被提出并实践。
例如在一篇名为《RLAfford: End-to-End Affordance Learning for Robotic Manipulation》的文章中就发现,在交互式环境中学习操作三维对象一直是强化学习中一个具有挑战性的问题,人们很难训练一种策略来囊括所有具有不同语义类别、不同形状几何形状和多功能的对象,为此他们将研究瞄准了操作过程中的联系信息,并首次提出了一种新的端到端的深度学习框架,尝试以一种统一的交互规则以覆盖描述不同类型的操作任务,未来有望为基于RL的操作开发开辟一条新的道路。
无独有偶,一篇名为《Developing cooperative policies for multi-stage reinforcement learning tasks》的文章中,同样发现强化学习算法面对多层级任务时必须利用一系列独立的技能作为基础才能解决更高层次的推理任务。为此他们提出了一种协同连续策略(CCP)的方法,使连续代理能够协同解决长时间范围的多阶段任务,这帮助算法主体能够更好理解下一个任务,从而为任务的长期连贯性开发提供了新思路。
而在名为《Active Predictive Coding: Brain-Inspired Reinforcement Learning for Sparse Reward Robotic Control Problems》的文章中,研究团队也发现了传统深度学习场景落地所面临的困难,因此他们提出了一种通过神经生成编码(NGC)的神经认知计算框架机器人控制方法,并设计了一个完全由预测处理电路构建的代理,促进了从稀疏奖励的动态在线学习,体现了规划即推理的原则。
针对强化学习(RL)的研究除了理论上的开拓,大多数论文中也都将研究结论放到了机器人实体上进行检验验证以证明算法的可靠性。我们发现,由于Franka Emika机器人能保持末端执行器的姿势和速度稳定,能帮助研究者更好获取机器人的实时状态和外部设备的力反馈情况,并进一步分解子任务,从而加速了机器人的研发效率,这使得Franka Emika机器人得到大多数研发者的认可,也成为多篇机器人研究论文的重要实验载体。
深层次算法不断优化
当然,不仅仅是深度学习(RL)领域相关的策略研究,随着相关研究的深入,人们逐渐发现,RL最初的目标是学习一个最优的策略,使长期累积的回报最大化,但在不断的机器人研究中,现实世界的大多场景中,由于环境交互的复杂性与不可控性,学习样本数据量较大,导致传统RL的奖励机制和可观察性难以实现,同时,虚拟建模的物理现实映射非常具有挑战性。
因此,在RL的基础上,一些进一步优化的理论和方法正被提出。例如模仿学习(IL)、元学习(Meta-learning)、离线强化学习(ORL)、深度强化学习(DRL)、多层级强化学习(HRL)等延伸概念以及研究开始日益兴盛,并在机器人实际产品上,展现出了更大的研究和附属开发价值。
例如加州大学伯克利分校与谷歌研究人员一篇名为《Demonstration-Bootstrapped Autonomous Practicing via Multi-Task Reinforcement Learning》的内容中就指出,由于机器人面对陌生重置环境需要重新探索、学习,使用传统强化学习(RL)很难直接将机器人放置在厨房等变量环境中进行长时间的工作,而是需要在训练的过程中不断加入大量的人为干预和矫正。
为此他们提出了一种演示引导自主练习(DBAP)的全新机器人学习系统,这套系统只需借助少量样本数据就能实现多任务演示,从而可以将RL扩展到目标任务,使整个学习过程更高效,并引导策略学习和行为进行自主实践,最终显示出执行长时间多步骤任务的能力。
为了验证这一系统,他们将实验结果放在一个7自由度的Franka Emika机器人上进行了测试,让机器人分别进行厨房中三个不同类型的任务,而这每种运动都需要不同的控制策略。实验结果证明,这种结合了低级别的ORL和高级别图形化搜索模型系统,能够帮助机器人不需要状态估计,可以直接从视觉输入中学习,未来有望提高自主学习行为的可靠性。
又例如ICRA2023一篇名为《Seq2Seq Imitation Learning for Tactile Feedback-based Manipulation》的文章中就尝试在深度学习的基础上,融合模仿学习和触觉感知的特点。为此,他们开发了Seq2Seq这种新的序列模型,试图解决需要频繁接触的操作任务样本导致的环境动态复杂性以及可观察性问题。
在研究中,作者团队尝试首先用Seq2Seq模仿学习模型生成一个机器人-环境的交互序列来大致估算部分可观察到的环境状态变量,然后将观察到的交互序列转换为任务本身的控制序列,最后作者将这套在模拟环境下能够正常运行的Seq2Seq IL模型,放在Franka Emika Panda真实机器人的快速切换任务上进行了实验验证。
研究通过将观察到的交互序列转化为任务的控制序列,通过学习机器人-环境交互序列来估计部分可观测的环境状态变量。实验表明,该模型拥有相较传统强化学习和模仿学习更强的演示学习特性,大幅提高了样本效率,并能够有效从专家演示中学习解决实际的即时任务,完成了从环境探索和技能规划的闭环控制,这也为多阶段模仿学习开辟了一个有趣的研究方向。
另外,在一篇名为《Meta-Reinforcement Learning via Language Instructions》的文章中,研究者则采用了元强化学习(meta-RL)的方法,用于解决机器人在多重操作任务中如何使用语言指令来学习技能的挑战。
该研究团队开发了一套能利用语言指令来塑造其对任务解释的元强化学习算法,该算法模拟了类人的学习方式,能够接受以任务为核心的自由形式化语言指令作为输入,这极大地提高了算法在基准元世界(Meta-World)中的渐近性能,让机器人不断能通过自然语言的指导来学习新的技能并快速试错。
最后,研究者们还在Franka机器人上进一步实践了这套算法的可靠性,证明了元强化学习(meta-RL)可以很好地通过为机器人提供例如语言指令等额外的任务信息,然后通过编码让机器人能将语言指令转化为实际运行流程,这种全新的机器人运动控制方法可以用来提高机器人的算法适应性,也由于语言样本比密集的奖励更容易提供,因此这套算法在训练效率和测试任务成功率方面显著优于传统强化学习算法。
结语与未来
通过这些理论和实践的对照研究可以发现,机器人正成为强化学习和相关算法研究的优秀载体,而强化学习在机器人领域的应用研究以及探索方向也非常广泛。
例如利用强化学习算法,能让机器人可以学习如何成功抓取未知物体,并根据环境反馈信息来改善其抓取策略。例如借助深度学习算法,可以用于将仿真环境中的策略转化为实际机器人上的可执行策略,以实现更高效的机器人控制。
又例如研究者也可以利用强化学习,让机器人可以通过观察人类或其他机器人的行为来学习如何执行任务,并逐步优化其行为策略,实现更进一步的任务分层和拆解,从而完成多样化的机器人操作任务。还有能通过强化学习算法,更好融合机器人的物理模型或仿真环境,从而用于学习和实践更高效的控制策略,以完成机器人的自主控制。
总之,从这些论文来看,目前强化学习在机器人的应用研究已经全面开花。
尤其是GPT技术快速发展后,利用语言指令进行机器人运动控制来提高适应性更是近年来出现的一个具有挑战性的课题,面对语言信息的复杂反馈信号,如何优化强化学习,从而达到比奖励机制和信息获取方式更为优秀的算法正成为全球机器人研究的热点。
多篇文章的实践已经证明,Franka Emika机器人附加的控制接口FCI (Franka Control Interface),是开展力控制、运动算法、抓取策略、交互场景、触觉感知和机器学习等研究和测试的理想平台。使用FCI 可与机器人的本体和抓手建立快速的底层双向连接。可通过快速、直接的底层双向通信将工作站 PC连接到机器人系统,是开放底层C ++接口,稳定的二次开发平台。由于支持ROS,ROS2 ,MoveIt,MATLAB,Simulink等平台,这样可以提供机器人的当前状态并对其实施1 kHz的实时控制。
Franka Emika亚太区商务负责人卫卜源表示,Franka机器人始终保持着对最前沿机器人技术的探索和开拓,在ICRA2023论文集中就有130余篇论文采用了Franka机器人作为研究平台,同时我们也从二次开发使用者的角度对使用者进行技术支持和培训,使机器人能够更好地展现研究成果,未来在各个领域更好地服务于人类社会。感兴趣的小伙伴可以关注如下视频号获得更多的案例视频,或者扫码文章底部的二维码获得更多的咨询。
关于 Franka Emika
Franka Emika是一家总部位于慕尼黑的机器人公司,由Sami Haddadin和他的兄弟 Simon,以及一支经验丰富的机器人专家团队于 2016 年创立。公司自成立以来不断发展壮大,现有员工超200人。Franka Emika 是开发具有人类触觉的机器人技术的先驱,被认为是过去 140 年来德国最重要的发明之一。它具有类似于人类手臂的独特灵巧性,敏捷且安全。在中国区,Franka Emika全权委托TQ集团提供全流程的机器人服务。