Do Visual-Language Maps Capture Latent Semantics?

简介

最近，通过使用视觉语言模型（VLMs）中的潜在表示，即嵌入，来表示地图中的自然语言语义，VLMs已经被引入到机器人制图中。其主要优点是超越了一小部分人类创建的标签，实现了开放词汇的场景理解。虽然有传言称，使用这些嵌入构建的地图支持下游任务（如导航），但缺乏对使用这些嵌入质量的严格分析。我们研究了地图质量的两个关键属性：可查询性和一致性。可查询性评估了从嵌入中检索信息的能力。我们研究了一致性的两个方面：地图内一致性和地图间一致性。地图内一致性捕捉了嵌入表示抽象语义类别的能力，而地图间一致性捕捉了表示的泛化属性。在本文中，我们提出了一种分析使用VLMs创建的地图质量的方法，这形成了一个开源基准，可用于提出新的开放词汇地图表示。我们通过使用Matterport3D数据集的真实世界数据，评估了两种最先进的方法VLMaps和OpenScene创建的地图，使用了两种编码器LSeg和OpenSeg。我们发现，OpenScene在两种编码器下均优于VLMaps，而LSeg在两种方法下均优于OpenSeg。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在研究使用自然语言语义表示地图的质量问题，具体包括查询性和一致性两个方面的评估。
关键思路

本文提出了一种分析使用VLMs创建地图质量的方法，并使用Matterport3D数据集评估了两种方法VLMaps和OpenScene使用两个编码器LSeg和OpenSeg创建的地图质量。
其它亮点

本文的亮点包括提出了一种分析地图质量的方法，使用了开源数据集和代码，并发现OpenScene优于VLMaps，LSeg优于OpenSeg。
相关研究

最近的相关研究包括使用深度学习进行地图构建和自然语言处理的研究，如《Deep Reinforcement Learning for Mapping Decentralized Systems》和《Natural Language Processing for GIS Applications》。

Do Visual-Language Maps Capture Latent Semantics?

提问交流

提问交流