Vision Language Models Can Parse Floor Plan Maps

2024年09月19日
  • 简介
    本文关注于地图解析这一新颖任务,这个任务在VLM背景下尚未被探索,对于移动机器人尤为有用。地图解析需要理解地图的标签和几何配置,即什么区域是什么样子以及它们如何连接。为了评估VLM在地图解析方面的表现,我们使用平面图提示VLM生成复杂室内导航的任务计划。我们的结果表明,VLM在地图解析方面具有显著的能力,在需要进行九个导航动作序列的任务中,例如接近和穿过门,成功率为0.96。除了直观的观察结果,例如VLM在较小的地图和较简单的导航任务中表现更好之外,还有一个非常有趣的观察结果,即在大型开放区域中,其性能会下降。我们提供了实用的建议来解决这些挑战,并通过实验结果进行了验证。网页链接:https://shorturl.at/OUkEY
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在探索视觉语言模型(VLMs)在地图解析中的应用,该任务对于移动机器人尤其有用。具体来说,地图解析需要理解地图标签以及地图的几何配置,即区域的特征以及它们如何连接。作者通过使用VLMs生成复杂室内导航的任务计划,评估了VLMs在地图解析中的表现。
  • 关键思路
    本文提出使用VLMs解析地图,将图像和文本同时进行推理,从而解决地图解析问题。实验结果表明VLMs在小型地图和简单导航任务中表现更好,但在大型开放区域中表现下降。
  • 其它亮点
    本文的亮点包括:使用VLMs解决了地图解析问题,并将其应用于室内导航任务;实验结果表明VLMs在小型地图和简单导航任务中表现良好,但在大型开放区域中表现下降;为了解决这些挑战,作者提供了实用建议;本文提供了数据集和代码。
  • 相关研究
    最近的相关研究包括:《End-to-End Learning of Semantic Grasping》、《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问