Breaking the Frame: Image Retrieval by Visual Overlap Prediction

简介

我们提出了一种新颖的视觉地点识别方法VOP，通过从传统的全局图像相似性和局部特征依赖转向图像重叠预测来有效解决遮挡和复杂场景问题。该方法能够识别可见图像部分，而无需昂贵的特征检测和匹配。通过使用Vision Transformer骨干网格获取补丁级嵌入并建立补丁对应关系，我们的方法使用投票机制来评估潜在数据库图像的重叠分数，从而在具有挑战性的场景中提供细致的图像检索指标。在许多大规模实际数据集上，VOP相对于现有最先进的基线方法，能够提供更准确的相对姿态估计和定位结果。该代码可在https://github.com/weitong8591/vop上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视觉场所识别中遇到的遮挡和复杂场景问题，提出了一种新的方法VOP。该方法通过图像重叠预测来识别可见图像部分，从而提高相对姿态估计和定位结果的准确性。
关键思路

VOP方法的关键思路是使用Vision Transformer骨干网络获取补丁级别的嵌入，并建立补丁与补丁之间的对应关系，通过投票机制评估潜在数据库图像的重叠得分，从而提供了一种在挑战性场景下的细致图像检索度量。
其它亮点

论文的实验结果表明，VOP方法在多个大规模真实世界数据集上相对于现有的基线方法，能够提供更准确的相对姿态估计和定位结果。此外，论文提供了开源代码。
相关研究

最近的相关研究包括：1）基于卷积神经网络的图像特征提取方法；2）使用深度学习进行场所识别的方法；3）基于视觉词袋的场所识别方法。

Breaking the Frame: Image Retrieval by Visual Overlap Prediction

提问交流

提问交流