Dex-Net4.0
-
- 摘要
- INTRODUCTION
- RESULTS
- 双臂机器人的灵巧抓取
摘要
对于电子商务订单执行、制造、检测和家庭服务机器人来说,实现通用的抓取算法或机器人从堆中可靠地抓取各种各样的新奇物体是一个巨大的挑战。由于传感、控制和物理接触中固有的不确定性,优化通用的抓取的速率、可靠性和广泛性很困难。本文探讨了“双手灵巧”的机器人抓取,其中使用两个或多个不同种类的抓取器。我们介绍灵巧网络(Dex-Net) 4.0,这是Dex-Net以前版本的一个实质性扩展,它通过使用物理和几何分析模型的领域随机化在合成数据集上进行训练,从而学习一组给定的抓取的策略。我们在基于平行夹爪以及真空吸盘为末端执行器的机器人上训练了500万个合成深度图像、抓取位姿和从大量三维物体中产生的奖励。在一个有两个末端执行器的物理机器人上,Dex-Net 4.0算法以每小时300次以上的平均抓取速率,并且以大于95%的可靠性,持续清理多达25个新物体的箱子。
INTRODUCTION
通用的抓取算法,或机器人快速可靠地抓取各种新物体的能力,可以使仓储、制造、医药、零售和服务机器人的应用受益。由于机器人感知和控制的固有局限性,实现通用的抓取算法是极具挑战性的。传感器噪音和遮挡模糊了环境中物体的精确几何形状和位置。控制液压系统的参数不精确的驱动和校准会导致机械臂定位不准确。因此,通用的抓取算法不能假设对环境中的机器人或物体的状态有精确的了解。
实现通用的抓取算法的一种方法是创建一个三维物体模型抓取的数据库,使用从几何和物理中导出的抓取性能度量,并随机采样以模拟不确定性。这种分析方法需要感知系统来记录已知物体的传感器数据,并且在实践中不能很好地推广到各种各样的新物体。第二种方法使用机器学习来训练函数逼近器,例如深度神经网络,以使用经验成功和失败的大型训练数据集从图像中预测候选抓取的成功概率。训练数据集是从人类或物理实验中收集的。由于校准或硬件的改变,收集这样的数据可能是乏味的并且容易不准确。
为了降低数据收集的成本,我们探索了一种混合方法,该方法使用几何和力学模型来生成合成训练数据集。然而,由于模型和现实世界系统之间的固有差异,基于合成数据训练的策略可能会降低物理机器人的性能。这个模拟到现实的转换问题是机器人学习中的一个长期挑战。为了弥补这个差距,混合方法在对象、传感器和物理参数上使用了域随机化。这鼓励政策学习对传感、控制和物理学中的不精确有鲁棒性的掌握。此外,该方法基于深度图像来规划抓取,该深度图像可以使用光线跟踪来精确地模拟,并且对于对象颜色是不变的。
混合方法已被用于学习一个物理机器人与一个单一的抓爪可靠的通用的抓取算法。然而,在实践中需要不同的抓取方式来可靠地处理各种各样的物体。例如,基于真空的吸盘抓取器可以轻松抓取具有无孔平面的物体,如盒子,但它们可能无法抓取小物体,如回形针,或多孔物体,如布料。
在亚马逊机器人挑战赛等应用中,通常通过为机器人配备一个以上的末端执行器(例如,一个平行颚夹和一个吸盘)来扩大范围。领域专家通常手工编写一个策略来决定在运行时使用哪个抓取器。这些手动编码的策略很难调整,可能很难扩展到新的相机、抓取器和机器人。
在这里,我们介绍了“双手灵巧”的机器人策略学习,使用的混合方法实现通用的抓取算法。我们提出了灵巧网络(Dex-Net) 4.0数据集生成模型,将Dex-Net 2.0 中的特定于二指夹具的模型扩展为D e x - N e t 3.0 。这个框架用一个共同的度量标准来评估所有的抓地力预期的扳手阻力,或者在随机扰动下抵抗特定任务的力和扭矩的能力,比如重力。
我们完成基于二指夹具和真空吸盘的模型,并生成Dex-Net 4.0训练数据集,该数据集包含与合成点云相关的超过500万次抓取,以及从模拟堆中的1664个唯一3D对象计算的抓取度量。我们为每个抓取器训练单独的抓取质量卷积神经网络(GQ神经网络),并将它们结合起来为给定点云中的对象规划抓取。
本文的主要贡献如下:
1)实现了基于鲁棒扳手阻力作为公共奖励函数的双手灵巧机器人抓取部分的可观测马尔可夫决策过程框架。
2)在Dex-Net 4.0数据集上训练的双手灵巧抓取策略,该策略使用单独的GQCNN为每个抓取器规划抓取以最大化质量。
3)与手动编码和学习的基线相比,实验评估了多达50个不同的、新颖的物体和一个带有平行钳口和吸盘抓取器的ABB米语机器人的箱子拾取性能。
实验表明,Dex-Net 4.0策略在物理机器人上实现了95%的可靠性,每小时平均抓取300次(MPPH)(每小时成功抓取)。
RESULTS
双臂机器人的灵巧抓取
我们考虑双手灵巧地从杂乱的堆中抓取各种各样的新物体的问题,使用带有深度相机和两个或更多可用抓取器的机器人,例如基于真空的吸盘抓取器和/或平行爪抓取器。为了给实验中考虑的度量和方法提供背景,我们将这个问题形式化为一个POMDP,在这个POMDP中,给定环境的不完美观察,机器人计划抓取以最大化期望回报(抓取成功的概率)。
后续有空再更。