Vision Language Models Can Parse Floor Plan Maps

向作者提问

NEW

简介

本文关注于地图解析这一新颖任务，这个任务在VLM背景下尚未被探索，对于移动机器人尤为有用。地图解析需要理解地图的标签和几何配置，即什么区域是什么样子以及它们如何连接。为了评估VLM在地图解析方面的表现，我们使用平面图提示VLM生成复杂室内导航的任务计划。我们的结果表明，VLM在地图解析方面具有显著的能力，在需要进行九个导航动作序列的任务中，例如接近和穿过门，成功率为0.96。除了直观的观察结果，例如VLM在较小的地图和较简单的导航任务中表现更好之外，还有一个非常有趣的观察结果，即在大型开放区域中，其性能会下降。我们提供了实用的建议来解决这些挑战，并通过实验结果进行了验证。网页链接：https://shorturl.at/OUkEY
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探索视觉语言模型（VLMs）在地图解析中的应用，该任务对于移动机器人尤其有用。具体来说，地图解析需要理解地图标签以及地图的几何配置，即区域的特征以及它们如何连接。作者通过使用VLMs生成复杂室内导航的任务计划，评估了VLMs在地图解析中的表现。
关键思路

本文提出使用VLMs解析地图，将图像和文本同时进行推理，从而解决地图解析问题。实验结果表明VLMs在小型地图和简单导航任务中表现更好，但在大型开放区域中表现下降。
其它亮点

本文的亮点包括：使用VLMs解决了地图解析问题，并将其应用于室内导航任务；实验结果表明VLMs在小型地图和简单导航任务中表现良好，但在大型开放区域中表现下降；为了解决这些挑战，作者提供了实用建议；本文提供了数据集和代码。
相关研究

最近的相关研究包括：《End-to-End Learning of Semantic Grasping》、《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问