图像匹配是三维视觉中所有最佳算法和流程的核心组件。然而,尽管匹配本质上是一个与相机姿态和场景几何紧密相关的三维问题,但通常将其视为一个二维问题。这是有道理的,因为匹配的目标是建立2D像素场之间的对应关系,但似乎也是一个潜在的危险选择。在这项工作中,我们采取了不同的立场,并提出将匹配作为一个三维任务,使用基于Transformer的最新而强大的3D重建框架DUSt3R。基于点地图回归,这种方法在匹配视角发生极端变化的情况下显示出了令人印象深刻的鲁棒性,但准确性有限。我们的目标是提高这种方法的匹配能力,同时保持其鲁棒性。因此,我们提出了使用新的头部来增强DUSt3R网络,输出密集的局部特征,并使用额外的匹配损失进行训练。我们进一步解决了密集匹配的二次复杂度问题,如果不仔细处理,它将在下游应用中变得难以接受。我们引入了一种快速的互惠匹配方案,不仅可以将匹配加速数倍,而且具有理论保证,并且最终产生了改进的结果。大量实验证明,我们的方法MASt3R在多个匹配任务上显著优于现有技术水平。特别是,在极具挑战性的无地图定位数据集上,它在VCRE AUC方面的表现比最佳已发表方法提高了30%(绝对改进)。
提问交流