- 简介本文提出了一种管道来提高小规模人类演示预算下的模仿学习性能。我们将这种方法应用于需要在长时间范围内精确抓取、重新定位和插入多个部件的装配任务中。我们的管道结合了表达能力强的策略架构和各种数据集扩展和基于仿真的数据增强技术。这些技术有助于扩展数据集支持并在需要高精度的瓶颈区域附近监督模型进行局部校正动作。我们在模拟环境中展示了我们的管道,使机械手能够直接从RGB图像中组装多达五个部件,超过了模仿学习和数据增强基线。
-
- 图表
- 解决问题如何在小规模人类演示数据集的情况下,提高精度要求高、需要长期操作的组装任务的模仿学习性能?
- 关键思路使用多种数据扩充和基于模拟的数据增强技术,结合表达力强的策略架构,对瓶颈区域进行局部校正动作的监督,从而实现对组装任务的模仿学习。
- 其它亮点在四个家具组装任务中,使用RGB图像直接进行模仿学习,机械臂可以在近2500个时间步内组装多达五个部件,超越了模仿学习和数据增强基线。
- 相关研究包括《End-to-End Robotic Reinforcement Learning without Reward Engineering》、《Learning Dexterous In-Hand Manipulation》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流