Data Efficient Behavior Cloning for Fine Manipulation via Continuity-based Corrective Labels

2024年05月29日
  • 简介
    我们考虑仅通过专家演示进行模仿学习,由于执行过程中复合误差的影响,其在现实世界中的应用通常受到协变量漂移的限制。我们研究了基于连续性的纠正标签对于缓解现实世界中精细操作任务中协变量漂移问题的有效性。CCIL通过从演示中学习本地连续动态模型来生成纠正标签,以引导代理程序回到专家状态。通过对插销和精细抓取的大量实验,我们提供了首次实证验证,即尽管存在接触丰富的操作中的不连续性,但CCIL可以显著提高模仿学习性能。我们发现:(1)现实世界中的操作表现出足够的局部平滑性以应用CCIL,(2)生成的纠正标签在低数据范围内最有益,(3)基于估计的动态模型误差的标签过滤可以实现性能提升。为了有效地将CCIL应用于机器人领域,我们提供了该框架的实用实例,并提供了有关设计选择和超参数选择的见解。我们的工作证明了CCIL在物理机器人上缓解模仿学习中复合误差的实用性。
  • 图表
  • 解决问题
    本文旨在解决在仅有专家演示的情况下进行模仿学习时,由于执行过程中的复合误差导致协变量转移的问题。
  • 关键思路
    本文提出了基于连续性的纠正标签框架(CCIL),通过学习局部连续动力学模型来生成纠正标签,指导代理回到专家状态,从而在实际微操作任务中减轻复合误差。
  • 其它亮点
    通过在插销和细致抓取上进行广泛的实验,本文首次证明了尽管存在接触丰富的操作中的不连续性,CCIL仍然可以显著提高模仿学习的性能。本文发现:(1)真实世界中的操作表现出足够的局部平滑性以应用CCIL,(2)在低数据情况下生成的纠正标签最有益,(3)基于估计的动力学模型误差的标签过滤可以实现性能提升。
  • 相关研究
    近期在这个领域中,还有一些相关的研究被进行,例如“End-to-End Robotic Reinforcement Learning without Reward Engineering”和“DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论