- 简介双手操作对于许多机器人应用至关重要。与单臂操作相比,由于动作空间更高维,双手操作任务更具挑战性。以往的研究利用大量数据和基本动作来解决这个问题,但可能会受到样本效率低和在各种任务中泛化能力有限的影响。为此,我们提出了 VoxAct-B,一种基于语言条件和基于体素的方法,利用视觉语言模型(VLM)来优先考虑场景中的关键区域并重构体素网格。我们将这个体素网格提供给我们的双手操作策略来学习执行和稳定动作。这种方法使得从体素中更有效地学习策略,并且可以推广到不同的任务。在模拟中,我们展示了 VoxAct-B 在细粒度双手操作任务上优于强基线。此外,我们还展示了 VoxAct-B 在使用两个 UR5 机器人进行真实世界的“打开抽屉”和“打开罐子”任务中的表现。代码、数据和视频将在 https://voxact-b.github.io 上提供。
-
- 图表
- 解决问题论文旨在解决双臂机器人操作中高维动作空间的挑战,提出了一种基于VLM的语言条件、基于体素的方法VoxAct-B,以更高效地学习策略并实现不同任务的泛化。
- 关键思路VoxAct-B利用VLM确定场景中关键区域并重构体素网格,将其提供给双臂操作策略来学习行动和稳定动作,从而实现更高效的策略学习和不同任务的泛化。
- 其它亮点论文在模拟环境中展示了VoxAct-B在精细双臂操作任务上优于强基线方法的表现,并在两个UR5上展示了在真实$ exttt{Open Drawer}$和$ exttt{Open Jar}$任务中的表现。论文提供了代码、数据和视频。
- 在这个领域中,以往的工作通常利用大量数据和原始动作来解决高维动作空间的问题,但可能会受到样本效率和任务泛化性的限制。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流