One-Shot Imitation Learning with Invariance Matching for Robotic Manipulation

2024年05月21日
  • 简介
    学习一个能够执行多种操作任务的单一通用策略是机器人技术中一个有前途的新方向。然而,现有技术仅限于学习能够执行训练期间遇到的任务的策略,并且需要大量演示来学习新任务。另一方面,人类通常可以从单个未注释的演示中学习新任务。在这项工作中,我们提出了不变匹配单次策略学习(IMOP)算法。与直接学习末端执行器姿态的标准做法不同,IMOP首先学习给定任务的状态空间中的不变区域,然后通过匹配演示和测试场景之间的不变区域计算末端执行器的姿态。在18个RLBench任务上进行训练,IMOP的成功率始终优于现有技术,平均比18个任务上的现有技术高出4.5%。更重要的是,IMOP可以从单个未注释的演示中学习新任务,而且不需要任何微调,在选择的9个类别中的22个新任务上平均成功率提高了11.5%。IMOP还可以推广到新的形状,并学习操作与演示中不同的对象。此外,IMOP可以使用单个真实机器人演示进行一次性的从仿真到实际的转移。
  • 作者讲解
  • 图表
  • 解决问题
    本论文的问题是如何让机器人能够通过单个未标记演示来学习新任务,而不需要大量演示,并且具有一定的泛化能力。这是一个新问题。
  • 关键思路
    论文的关键思路是使用不变量匹配来学习任务,而不是直接学习末端执行器的姿态。首先,学习给定任务的状态空间的不变量区域,然后通过匹配演示和测试场景之间的不变量区域来计算执行器的姿态。
  • 其它亮点
    论文使用Invariance-Matching One-shot Policy Learning (IMOP)算法,相比于现有技术在18个RLBench任务中实现了平均4.5%的成功率提升。IMOP可以从单个未标记演示中学习新任务,并且在22个新任务中平均成功率提高了11.5%,并且可以泛化到新形状和不同于演示中的对象。此外,IMOP还可以使用单个真实机器人演示进行一次性从模拟到现实的转移。
  • 相关研究
    最近的相关研究包括Learning to Learn from a Single Demonstration for Manipulation Tasks(Arxiv 2021)、One-Shot Visual Imitation Learning via Meta-Learning(ICLR 2021)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问