- 简介在过去的十年中,大多数视觉地点识别(VPR)方法使用神经网络生成特征表示。这些网络通常仅使用图像本身产生一个地点图像的全局表示,并忽略图像间的交叉变化(例如视角和光照),这限制了它们在具有挑战性的场景中的鲁棒性。在本文中,我们提出了一种具有交叉图像相关性感知的鲁棒全局表示方法,命名为CricaVPR。我们的方法使用自我注意机制来关联批量中的多个图像。这些图像可以在相同的地方以不同的条件或视角拍摄,甚至可以从不同的地方拍摄。因此,我们的方法可以利用交叉图像变化作为提示来指导表示学习,从而产生更加稳健的特征。为了进一步促进鲁棒性,我们提出了一种多尺度卷积增强适应方法,将预训练的视觉基础模型适应到VPR任务中,从而引入多尺度局部信息以进一步增强交叉图像相关性感知表示。实验结果表明,我们的方法在显著减少训练时间的情况下,比现有方法表现更好。我们的方法使用512维全局特征在Pitts30k数据集上实现了94.5%的R@1。代码已经发布在https://github.com/Lu-Feng/CricaVPR。
- 图表
- 解决问题如何提高视觉地点识别(VPR)的鲁棒性,特别是在具有交叉图像变化的复杂场景中?
- 关键思路使用自注意力机制将批次中的多个图像进行相关性建模,利用交叉图像变化来指导表示学习,从而产生更鲁棒的特征表示;同时,提出多尺度卷积增强自适应方法,将预训练的视觉基础模型适应到VPR任务中,引入多尺度局部信息进一步增强交叉图像相关性感知表示。
- 其它亮点实验结果表明,该方法在Pitts30k数据集上取得了94.5%的R@1,明显优于现有的最先进方法;同时,该方法训练时间更短。该方法的代码已经在Github上开源。
- 在VPR领域,大多数方法使用神经网络产生特征表示。然而,这些方法通常忽略了交叉图像变化,从而限制了它们在复杂场景中的鲁棒性。最近的相关研究包括:《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《Neural Topological SLAM for Visual Navigation》、《Visual Place Recognition with Probabilistic Sequence Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢