Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning

简介

在机器人学习领域，高维观测（如RGB图像）和低级机器人行动之间的复杂映射是一个复杂的学习问题，特别是在数据量有限的情况下。在这项工作中，我们介绍了Render and Diffuse（R＆D）方法，该方法使用机器人3D模型的虚拟渲染将低级机器人行动和RGB观测统一到图像空间中。利用这种联合观测-行动表示，它使用学习扩散过程计算低级机器人行动，该过程迭代更新机器人的虚拟渲染。这种空间统一简化了学习问题，并引入了归纳偏差，这对样本效率和空间泛化至关重要。我们在模拟中全面评估了几种R＆D变体，并展示了它们在现实世界中六个日常任务中的适用性。我们的结果表明，R＆D具有强大的空间泛化能力，并且比常见的图像到行动方法更具样本效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决机器人学习中高维观测和低级机器人动作之间的复杂映射问题，提高样本效率和空间泛化能力。
关键思路

论文提出了一种名为R&D的方法，通过虚拟渲染机器人的3D模型，将低级机器人动作和RGB观测融合到图像空间中，并使用学习扩散过程计算低级机器人动作。这种空间统一简化了学习问题，引入了归纳偏差，提高了样本效率和空间泛化能力。
其它亮点

论文在仿真环境和真实世界中进行了六项日常任务的应用实验，展示了R&D的强大空间泛化能力和样本效率。论文还提供了多种R&D的变体，并提供了开源代码。
相关研究

相关研究包括基于图像到动作的方法，如强化学习和模仿学习，以及基于3D模型的方法，如基于模型的强化学习和基于视觉的模型预测控制。

Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning

提问交流

提问交流