EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition

2024年05月28日
  • 简介
    本文的任务是视觉地点识别(VPR),即从一个地理标记图像数据库中预测查询图像的位置。最近的VPR研究强调了使用预训练的基础模型(如DINOv2)进行VPR任务的显着优势。然而,这些模型通常被认为在没有进一步的任务特定数据微调的情况下不足以进行VPR。在本文中,我们提出了一种简单但强大的方法来更好地利用基础模型进行VPR。我们首先证明了从自注意力层提取的特征可以作为VPR的强大再排名器。通过以零样本的方式利用这些特征,我们的方法超越了以前的零样本方法,并在多个数据集上与有监督的方法相比取得了有竞争力的结果。随后,我们证明了一种利用ViT内部层进行池化的单阶段方法可以生成全局特征,即使将其降至128D,也可以实现最先进的结果。然而,加入我们的本地基础特征进行再排名,扩大了这一差距。我们的方法进一步展示了显着的鲁棒性和泛化性,在涉及遮挡、昼夜变化和季节变化等具有挑战性的场景中实现了最先进的结果,且差距显著。
  • 图表
  • 解决问题
    本文旨在通过利用预训练模型的潜力,提出一种简单但有效的方法来解决视觉地点识别(VPR)任务。具体而言,作者试图解决如何更好地利用基础模型进行VPR的问题。
  • 关键思路
    本文提出了一种基于自注意力层的特征提取方法,可以作为VPR的强大重排序器。此外,作者还提出了一种单阶段方法,利用ViT内部层进行池化生成全局特征,即使降维到128D,也能取得最先进的结果。同时,本文还将局部基础特征用于重排序,进一步扩大了优势。
  • 其它亮点
    作者的方法在多个数据集上取得了最先进的结果,在涉及遮挡、昼夜变化和季节变化等复杂情况下也表现出了显著的鲁棒性和泛化能力。此外,作者还开源了代码。
  • 相关研究
    近期的相关研究包括《DINOv2: Improved Vision-Language Pretraining with Contrastive Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论