BoQ: A Place is Worth a Bag of Learnable Queries

2024年05月12日
  • 简介
    本文介绍了一种名为“Bag-of-Queries(BoQ)”的新技术,用于视觉场所识别。在不同的环境条件和视角下准确识别和匹配位置图像仍然是一个重大挑战。BoQ学习一组全局查询,旨在捕捉普适的地点特定属性。与现有方法不同,BoQ采用可学习的不同全局查询,通过交叉注意力对输入特征进行探测,确保一致的信息聚合。此外,该技术提供了可解释的注意机制,并与CNN和Vision Transformer骨干网络集成。通过对14个大规模基准测试的广泛实验,BoQ的性能得到了证明。它始终优于当前最先进的技术,包括NetVLAD、MixVPR和EigenPlaces。此外,作为一种全局检索技术(单阶段),BoQ超越了Patch-NetVLAD、TransVPR和R2Former等两阶段检索方法,同时速度更快、更高效。代码和模型权重公开可用于https://github.com/amaralibey/Bag-of-Queries。
  • 图表
  • 解决问题
    论文旨在解决视觉场所识别中的问题,即在不同环境条件和视角下准确识别和匹配位置图像。这是一个长期存在的问题。
  • 关键思路
    论文提出了一种新技术,称为Bag-of-Queries(BoQ),它学习一组全局查询,旨在捕捉通用的场所特定属性。与现有方法不同,BoQ采用可学习的全局查询,通过交叉注意力对输入特征进行探测,确保一致的信息聚合。此外,该技术提供了可解释的注意力机制,并与CNN和Vision Transformer主干相结合。
  • 其它亮点
    论文通过在14个大型基准测试上进行广泛实验,展示了BoQ的性能。它始终优于当前的最先进技术,包括NetVLAD,MixVPR和EigenPlaces。此外,作为一种全局检索技术(一阶段),BoQ超过了Patch-NetVLAD,TransVPR和R2Former等两阶段检索方法,同时速度更快、更高效。论文提供了公开的代码和模型权重。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如Patch-NetVLAD,TransVPR和R2Former等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论