Grounding Image Matching in 3D with MASt3R

简介

图像匹配是三维视觉中所有最佳算法和流程的核心组件。然而，尽管匹配本质上是一个与相机姿态和场景几何紧密相关的三维问题，但通常将其视为一个二维问题。这是有道理的，因为匹配的目标是建立2D像素场之间的对应关系，但似乎也是一个潜在的危险选择。在这项工作中，我们采取了不同的立场，并提出将匹配作为一个三维任务，使用基于Transformer的最新而强大的3D重建框架DUSt3R。基于点地图回归，这种方法在匹配视角发生极端变化的情况下显示出了令人印象深刻的鲁棒性，但准确性有限。我们的目标是提高这种方法的匹配能力，同时保持其鲁棒性。因此，我们提出了使用新的头部来增强DUSt3R网络，输出密集的局部特征，并使用额外的匹配损失进行训练。我们进一步解决了密集匹配的二次复杂度问题，如果不仔细处理，它将在下游应用中变得难以接受。我们引入了一种快速的互惠匹配方案，不仅可以将匹配加速数倍，而且具有理论保证，并且最终产生了改进的结果。大量实验证明，我们的方法MASt3R在多个匹配任务上显著优于现有技术水平。特别是，在极具挑战性的无地图定位数据集上，它在VCRE AUC方面的表现比最佳已发表方法提高了30%（绝对改进）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

将图像匹配视为三维任务，提高匹配准确性和速度。
关键思路

将基于Transformer的3D重建框架DUSt3R网络增加新的头部，输出密集局部特征并使用匹配损失进行训练。同时，引入一种快速的互相匹配方案，加速匹配并提高结果。
其它亮点

该方法在多项匹配任务中显著优于现有的最佳方法，尤其在极具挑战性的Map-free定位数据集上，相较最佳方法提高了30%的VCRE AUC。论文还开源了代码，并使用多个数据集进行了广泛的实验。
相关研究

最近的相关研究包括：《Patch2Vec: Scalable Patch-based Self-supervised Representation Learning for 3D Point Clouds》、《D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features》等。

Grounding Image Matching in 3D with MASt3R

提问交流

提问交流