Navi2Gaze: Leveraging Foundation Models for Navigation and Target Gazing

2024年07月12日
  • 简介
    任务感知导航在涉及开放词汇的场景中仍然是一个具有挑战性的研究领域。之前的研究主要关注于找到适合完成任务的位置,往往忽视了机器人姿态的重要性。然而,机器人的方向对于成功完成任务至关重要,因为物体的排列方式(例如,打开冰箱门)会受到影响。人类通过语义和常识直觉地导航到具有正确方向的物体。例如,当打开冰箱时,我们自然而然地站在冰箱前面而不是侧面。最近的进展表明,视觉语言模型(VLM)可以为机器人提供类似的常识。因此,我们开发了一种基于VLM驱动的方法,称为Navigation-to-Gaze(Navi2Gaze),用于基于任务描述的高效导航和物体注视。这种方法使用VLM自动评分和选择最佳姿态。在多个逼真的模拟基准测试中进行评估,Navi2Gaze明显优于现有方法,并精确确定相对于目标物体的最佳方向。
  • 图表
  • 解决问题
    如何通过视觉语言模型(VLM)实现任务导向的导航和物体注视?
  • 关键思路
    提出了一种基于VLM的方法,称为Navigation-to-Gaze(Navi2Gaze),用于根据任务描述实现高效的导航和物体注视。该方法利用VLM自动评分和选择最佳姿态,从而精确定位目标对象的最佳方向。
  • 其它亮点
    Navi2Gaze在多个逼真的仿真基准测试中表现显著优于现有方法,并能够精确定位目标对象的最佳方向。实验结果表明,该方法能够提供类似于人类的常识,为机器人提供更好的任务导向性能。
  • 相关研究
    最近的相关研究包括基于视觉语言模型的任务导向性导航和物体注视,例如《Embodied Vision-and-Language Navigation with Dynamic Convolutional Filters》和《Object Goal Navigation using Goal-Oriented Semantic Exploration》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论