GLACE: Global Local Accelerated Coordinate Encoding

2024年06月06日
  • 简介
    本文介绍的是场景坐标回归(SCR)方法,这是一种直接回归相机姿态估计的2D-3D匹配的视觉定位方法。这种方法在小型场景中非常有效,但在大型场景中面临着重大挑战,尤其是在没有地面真实3D点云的情况下。这时,模型只能依靠再投影约束来隐式三角化点。这些挑战源于一个基本的困境:网络必须对不同视角和光照条件下相同地标的观测具有不变性,但同时要区分不相关但相似的观测。在大型场景中,后者变得更加相关和严重。本文通过引入共视概念来解决这个问题。我们提出了GLACE方法,它集成了预训练的全局和局部编码,并使SCR能够仅使用单个小型网络扩展到大型场景。具体而言,我们提出了一种新颖的特征扩散技术,它隐式地将再投影约束与共视分组,并避免过度拟合于平凡的解决方案。此外,我们的位置解码器更有效地参数化了大型场景的输出位置。我们的方法在没有使用3D模型或深度图进行监督的情况下,使用低地图大小模型在大型场景中实现了最先进的结果。在剑桥地标上,我们使用单个模型比最先进的SCR方法ACE的集成变体Poker实现了17%的较低中位数位置误差。代码可在以下网址获取:https://github.com/cvg/glace。
  • 图表
  • 解决问题
    解决问题:论文旨在解决大规模场景下SCR方法的挑战,即在没有地面真实3D点云的情况下,如何通过重投影约束来实现相机姿态估计。
  • 关键思路
    关键思路:论文提出了GLACE方法,通过引入共视性概念,将全局和局部编码整合,实现SCR方法在大规模场景下的扩展。同时,使用特征扩散技术来避免对微不足道的解的过拟合,并使用有效的位置解码器来更好地参数化大规模场景的输出位置。
  • 其它亮点
    其他亮点:GLACE方法在不使用3D模型或深度图作为监督的情况下,使用单一小型网络在大规模场景下实现了最先进的结果。在剑桥地标数据集上,与ACE的集合变体Poker相比,单一模型的中位位置误差降低了17%。代码已开源。
  • 相关研究
    相关研究:最近的相关研究包括ACE,LIFT和DSAC等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论