RVT-2: Learning Precise Manipulation from Few Demonstrations

简介

在这项工作中，我们研究了如何构建一个机器人系统，能够根据语言指令解决多个3D操作任务。为了在工业和家庭领域有用，这样的系统应该能够在很少的演示中学习新任务并精确地解决它们。以前的工作，如PerAct和RVT，已经研究了这个问题，但是它们通常在需要高精度的任务上面临困难。我们研究如何使它们更加有效、精确和快速。通过使用架构和系统级别的改进的组合，我们提出了RVT-2，这是一个多任务3D操作模型，训练速度比其前身RVT快6倍，推理速度快2倍。RVT-2在RLBench上实现了新的最高水平，将成功率从65%提高到82%。RVT-2在现实世界中也很有效，在只有10个演示的情况下就可以学习需要高精度的任务，如拔出和插入插头。可视化结果、代码和训练模型提供在以下网址：https://robotic-view-transformer-2.github.io/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

构建一个能够通过语言指令解决多个3D操作任务的机器人系统，需要具有快速、准确、能够通过少量演示学习新任务的能力
关键思路

通过架构和系统级改进，提出了RVT-2模型，是RVT的6倍快速且2倍快速，有效地解决了需要高精度的任务
其它亮点

RVT-2在RLBench上实现了新的最先进水平，成功率从65%提高到82%；在现实世界中，RVT-2可以通过仅有10个演示学习需要高精度的任务；提供了视觉结果、代码和训练模型
相关研究

PerAct和RVT是该领域的先前工作

RVT-2: Learning Precise Manipulation from Few Demonstrations

提问交流

提问交流