RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulaiton

2024年06月27日
  • 简介
    利用视觉-语言模型(VLMs)进行机器人操作代表了一种新的范式,旨在增强模型对新对象和指令的泛化能力。然而,由于摄像头规格和安装位置的变化,现有方法在不同的机器人平台上表现出显著的性能差异。为了解决这个挑战,本文提出了RoboUniView,这是一种创新的方法,它将视觉特征提取与行动学习分离。我们首先通过预训练在易于访问的数据上学习多视角统一视图表示,然后从这个统一的视图表示中导出动作来控制机器人操作。这个统一的视图表示更准确地反映了物理世界,不受机器人平台摄像头参数的限制。由于这种方法,我们在要求很高的CALVIN基准测试中实现了最先进的性能,将$D \to D$设置中的成功率从88.7%提高到96.2%,将$ABC \to D$设置中的成功率从82.4%提高到94.2%。此外,我们的模型表现出出色的适应性和灵活性:它在未见过的摄像头参数下保持高性能,可以利用具有不同摄像头参数的多个数据集,并且能够跨数据集进行联合跨任务学习。提供代码以供重新实现。https://github.com/liufanfanlff/RoboUniview
  • 图表
  • 解决问题
    本文旨在解决机器人操作中不同平台相机参数差异导致的性能差异问题,提出了一种新的方法RoboUniView。
  • 关键思路
    RoboUniView方法将视觉特征提取和动作学习分离,首先通过预训练学习多视角视图的统一表示,然后从这个统一的视图表示中导出动作来控制机器人操作。
  • 其它亮点
    实验结果表明,RoboUniView方法在CALVIN基准测试中的表现优于现有方法,成功率从88.7%提高到96.2%(D -> D),从82.4%提高到94.2%(ABC -> D)。此外,该方法适应性和灵活性强,能够在不同相机参数下保持高性能,能够利用多个具有不同相机参数的数据集,并且能够进行跨数据集的联合交叉任务学习。作者提供了代码开源。
  • 相关研究
    在这个领域中,最近的相关研究包括:Vision-Language Models (VLMs) for Robotic Manipulation,Multi-View Representation Learning,以及Cross-Domain Visual Policy Learning for Real-World Robotic Manipulation等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论