RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulaiton

2024年06月27日
  • 简介
    利用视觉语言模型(VLMs)进行机器人操作代表了一种新的范式,旨在增强模型对新对象和指令的泛化能力。然而,由于相机规格和安装位置的差异,现有方法在不同的机器人平台上表现出显著的性能差异。为了解决这一挑战,本文提出了一种创新方法RoboUniView,它将视觉特征提取与动作学习分离。我们首先通过在易于访问的数据上进行预训练,学习多视角统一视图表示,然后从这个统一的视图表示中导出动作来控制机器人操作。这种统一的视图表示更准确地反映了物理世界,不受机器人平台相机参数的限制。由于这种方法,我们在要求很高的CALVIN基准测试中实现了最先进的性能,在$D \to D$设置中将成功率从93.0%提高到96.2%,在$ABC \to D$设置中从92.2%提高到94.2%。此外,我们的模型表现出了出色的适应性和灵活性:它在看不见的相机参数下保持高性能,可以利用具有不同相机参数的多个数据集,并能够跨数据集进行联合跨任务学习。提供了代码以供重新实现。https://github.com/liufanfanlff/RoboUniview
  • 图表
  • 解决问题
    论文旨在解决基于机器人操作的视觉语言模型在不同机器人平台上性能差异较大的问题,提出了一种解耦视觉特征提取和动作学习的方法。
  • 关键思路
    RoboUniView方法通过预训练学习多角度视图的统一视图表示,并从该表示中推导出动作来控制机器人操作,从而更准确地反映物理世界,不受机器人平台相机参数的限制。
  • 其它亮点
    论文在CALVIN基准测试中取得了最先进的性能,将D→D设置的成功率从93.0%提高到96.2%,将ABC→D设置的成功率从92.2%提高到94.2%。该模型在不同相机参数下保持高性能,可以利用具有不同相机参数的多个数据集,并能够在数据集之间进行联合跨任务学习。论文提供了代码开源。
  • 相关研究
    在这个领域中,最近的相关研究包括《Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks》和《Embodied Vision-and-Language Navigation with Dynamic Convolutional Filters》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论