IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation

2024年03月28日
  • 简介
    Vision-and-Language Navigation(VLN)是一项具有挑战性的任务,要求机器人在逼真的环境中根据人类自然语言提示进行导航。最近的研究旨在通过构建环境的语义空间地图表示,然后利用大型语言模型的强大推理能力来推广用于指导机器人导航的代码来处理此任务。然而,这些方法在实例级别和属性级别导航任务中面临限制,因为它们无法区分同一对象的不同实例。为了解决这个挑战,我们提出了一种新方法,即实例感知的视觉语言地图(IVLMap),以赋予机器人实例级别和属性级别的语义映射,其中自动通过将机器人代理收集的RGBD视频数据与鸟瞰图中的特殊设计的自然语言地图索引融合来构建。这种索引是实例级别和属性级别的。特别是,当与大型语言模型集成时,IVLMap展示了以下能力:i)将自然语言转换为带有实例和属性信息的导航目标,实现精确定位;ii)基于自然语言命令完成零-shot端到端导航任务。进行了广泛的导航实验。仿真结果表明,我们的方法可以实现导航精度平均提高14.4%。代码和演示发布在https://ivlmap.github.io/。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决Vision-and-Language Navigation(VLN)任务中的实例级别和属性级别导航问题。当前的方法无法区分同一对象的不同实例,因此需要一种新的方法来提高导航的准确性。
  • 关键思路
    论文提出了一种新的方法,即Instance-aware Visual Language Map(IVLMap),通过将机器人代理收集的RGBD视频数据与特殊设计的自然语言地图索引融合,使机器人具有实例级别和属性级别的语义映射能力。这种映射能力可以将自然语言转化为具有实例和属性信息的导航目标,从而实现精确定位和零-shot端到端导航任务。
  • 其它亮点
    论文进行了大量的导航实验,模拟结果表明,IVLMap可以提高14.4%的导航准确性。论文还发布了代码和演示,并使用了哪些数据集。
  • 相关研究
    最近的相关研究包括:Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout(ICCV 2019),Embodied Vision-and-Language Navigation with Dynamic Convolutional Filters(CVPR 2020),以及Language-Conditioned Graph Networks forRelational Navigation(CVPR 2020)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问