Tell Me Where You Are: Multimodal LLMs Meet Place Recognition

简介

大型语言模型（LLMs）在机器人领域表现出了许多有前途的能力，包括长期规划和常识推理。然而，它们在地点识别方面的表现仍未得到充分探索。在本研究中，我们引入多模态LLMs（MLLMs）到视觉地点识别（VPR）中，其中机器人必须使用视觉观察来定位自己。我们的关键设计是使用基于视觉的检索来提出几个候选项，然后利用基于语言的推理来仔细检查每个候选项以做出最终决定。具体而言，我们利用现成的视觉基础模型（VFMs）产生的强大视觉特征来获取多个候选位置。然后，我们提示MLLM以成对的方式描述当前观察和每个候选项之间的差异，并基于这些描述来推理出最佳候选项。我们在三个数据集上的结果表明，将VFMs的通用视觉特征与MLLMs的推理能力相结合已经提供了一种有效的地点识别解决方案，而无需任何VPR特定的监督训练。我们相信我们的工作可以启发新的可能性，即将基础模型（即VFMs、LLMs和MLLMs）应用和设计到移动机器人的定位和导航中。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探索使用多模式大型语言模型（MLLMs）进行视觉地点识别（VPR）的可能性，以提高移动机器人的定位和导航能力。
关键思路

本论文的关键思路是将通用的视觉特征与MLLMs的推理能力相结合，使用视觉检索提出候选位置，然后使用自然语言描述和推理来选择最佳候选位置。
其它亮点

论文的实验结果表明，将通用的视觉特征与MLLMs的推理能力相结合已经可以提供有效的地点识别解决方案，而无需进行VPR特定的监督训练。此外，论文还提供了一个基于视觉检索和自然语言描述的开放数据集和基准测试，以便更好地评估未来的研究工作。
相关研究

最近的相关研究包括使用深度学习方法进行视觉地点识别的工作，如基于卷积神经网络（CNN）的方法、基于循环神经网络（RNN）的方法以及基于图像检索和重定位的方法。

Tell Me Where You Are: Multimodal LLMs Meet Place Recognition

提问交流

提问交流