PRAM: Place Recognition Anywhere Model for Efficient Visual Localization

简介

人类在熟悉的环境中通过首先识别某些物体上定义的地标及其空间关系，然后通过将识别出的物体的详细结构与记忆中的物体结构对齐来验证位置，从而有效地定位自己。受此启发，我们提出了任何地方的地点识别模型（PRAM），以像人类一样高效地执行视觉定位。PRAM由两个主要组件组成——识别和注册。具体而言，首先采用自我监督的地图中心地标定义策略，使室内或室外场景中的地点成为唯一的地标。然后，从图像中提取稀疏关键点，利用基于变换器的深度神经网络进行地标识别；这些关键点使PRAM能够高效地识别数百个地标。关键点和识别出的地标标签进一步用于查询图像和3D地标地图之间的注册。与以前的分层方法不同，PRAM放弃了全局和局部描述符，并减少了90%以上的存储。由于PRAM利用识别和基于地标的验证来替代全局参考搜索和穷举匹配，因此比之前的最先进方法运行速度快2.4倍。此外，PRAM为视觉定位开辟了新的方向，包括多模式定位、地图中心特征学习和分层场景坐标回归。
图表
解决问题

本论文旨在提出一种新的视觉定位方法，名为PRAM，旨在像人类一样高效地在已知环境中进行定位。
关键思路

PRAM通过采用基于自监督的地图中心地标定义策略，使室内或室外场景中的地方成为独特的地标，并利用从图像中提取的稀疏关键点作为输入，使用基于transformer的深度神经网络进行地标识别。PRAM通过识别和基于地标的验证来替代全局参考搜索和穷举匹配，从而实现了高效的视觉定位。与以前的分层方法不同，PRAM丢弃了全局和局部描述符，并减少了超过90％的存储。此外，PRAM为视觉定位开辟了新的方向，包括多模态定位，地图中心特征学习和分层场景坐标回归。
其它亮点

论文的亮点包括：使用自监督的地图中心地标定义策略，使地方成为独特的地标；利用从图像中提取的稀疏关键点进行地标识别，实现了高效的视觉定位；PRAM丢弃了全局和局部描述符，并减少了超过90％的存储；PRAM为视觉定位开辟了新的方向。
相关研究

最近的相关研究包括：基于神经网络的视觉定位方法，如Neural Map、Neural SLAM和Neural Rerendering；基于关键点的定位方法，如SuperPoint和D2-Net。

PRAM: Place Recognition Anywhere Model for Efficient Visual Localization

评论