JUICER: Data-Efficient Imitation Learning for Robotic Assembly

简介

本文提出了一种管道来提高小规模人类演示预算下的模仿学习性能。我们将这种方法应用于需要在长时间范围内精确抓取、重新定位和插入多个部件的装配任务中。我们的管道结合了表达能力强的策略架构和各种数据集扩展和基于仿真的数据增强技术。这些技术有助于扩展数据集支持并在需要高精度的瓶颈区域附近监督模型进行局部校正动作。我们在模拟环境中展示了我们的管道，使机械手能够直接从RGB图像中组装多达五个部件，超过了模仿学习和数据增强基线。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在小规模人类演示数据集的情况下，提高精度要求高、需要长期操作的组装任务的模仿学习性能？
关键思路

使用多种数据扩充和基于模拟的数据增强技术，结合表达力强的策略架构，对瓶颈区域进行局部校正动作的监督，从而实现对组装任务的模仿学习。
其它亮点

在四个家具组装任务中，使用RGB图像直接进行模仿学习，机械臂可以在近2500个时间步内组装多达五个部件，超越了模仿学习和数据增强基线。
相关研究

相关研究包括《End-to-End Robotic Reinforcement Learning without Reward Engineering》、《Learning Dexterous In-Hand Manipulation》等。