- 简介在这项工作中,我们研究了如何构建一个机器人系统,能够根据语言指令解决多个3D操作任务。为了在工业和家庭领域有用,这样的系统应该能够在很少的演示中学习新任务并精确地解决它们。以前的工作,如PerAct和RVT,已经研究了这个问题,但是它们通常在需要高精度的任务上面临困难。我们研究如何使它们更加有效、精确和快速。通过使用架构和系统级别的改进的组合,我们提出了RVT-2,这是一个多任务3D操作模型,训练速度比其前身RVT快6倍,推理速度快2倍。RVT-2在RLBench上实现了新的最高水平,将成功率从65%提高到82%。RVT-2在现实世界中也很有效,在只有10个演示的情况下就可以学习需要高精度的任务,如拔出和插入插头。可视化结果、代码和训练模型提供在以下网址:https://robotic-view-transformer-2.github.io/。
-
- 图表
- 解决问题构建一个能够通过语言指令解决多个3D操作任务的机器人系统,需要具有快速、准确、能够通过少量演示学习新任务的能力
- 关键思路通过架构和系统级改进,提出了RVT-2模型,是RVT的6倍快速且2倍快速,有效地解决了需要高精度的任务
- 其它亮点RVT-2在RLBench上实现了新的最先进水平,成功率从65%提高到82%;在现实世界中,RVT-2可以通过仅有10个演示学习需要高精度的任务;提供了视觉结果、代码和训练模型
- PerAct和RVT是该领域的先前工作
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流