- 简介我们考虑仅通过专家演示进行模仿学习,由于执行过程中由于复合误差而导致协变量转移,其真实世界的应用通常受到限制。我们研究了基于连续性的校正标签对于缓解现实世界中的精细操作任务中这个问题的有效性。CCIL通过从演示中学习局部连续的动态模型来生成校正标签,以指导代理人回到专家状态。通过对嵌钉和精细抓握进行广泛的实验,我们提供了第一个经验证实CCIL可以显著提高模仿学习性能,尽管在接触丰富的操作中存在不连续性。我们发现:(1)实际操作表现出足够的局部平滑性以应用CCIL,(2)生成的校正标签在低数据情况下最有益,(3)基于估计的动态模型误差的标签过滤可以实现性能提升。为了有效地将CCIL应用于机器人领域,我们提供了该框架的实际实现以及设计选择和超参数选择方面的见解。我们的工作证明了CCIL在物理机器人上缓解模仿学习中复合误差的实用性。
-
- 图表
- 解决问题本论文旨在解决在仅有专家演示的情况下进行模仿学习时,由于执行过程中的复合误差而导致的协变量转移问题。
- 关键思路使用基于连续性的纠正标签来指导代理回到专家状态,从而缓解模仿学习中的协变量转移问题。
- 其它亮点通过在插销和精细抓取方面进行广泛的实验,证明了CCIL可以显著提高模仿学习的性能。实验结果表明,纠正标签在低数据情况下最有益,标签过滤可以提高性能。论文提供了CCIL框架的实际应用和设计选择以及超参数选择的见解。
- 近年来,与本论文相关的研究包括《End-to-End Robotic Reinforcement Learning without Reward Engineering》和《DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流