RoMa v2: Harder Better Faster Denser Feature Matching

2025年11月19日
  • 简介
    密集特征匹配旨在估计三维场景两幅图像之间的所有对应关系,近年来因其高精度和强鲁棒性而成为金标准。然而,现有的密集匹配方法在许多复杂的真实世界场景中仍然表现不佳甚至失效,且高精度模型通常运行速度较慢,限制了其实际应用。本文从多个方面系统性地针对这些弱点进行改进,通过一系列优化措施共同构建出一个性能显著提升的新模型。具体而言,我们设计了一种新颖的匹配架构与损失函数,结合精心筛选且多样化的训练数据分布,使模型能够有效应对多种复杂的匹配任务。此外,我们采用解耦的两阶段“先匹配后优化”流程来加速训练过程,并通过定制的CUDA内核大幅降低优化阶段的内存占用。最后,我们引入最新的DINOv3基础模型,并结合多项其他关键技术改进,进一步增强了模型的鲁棒性和公平性。在大量实验中,我们证明了所提出的新匹配器达到了新的最先进水平,其精度显著优于此前的方法。代码地址:https://github.com/Parskatt/romav2
  • 作者讲解
  • 图表
  • 解决问题
    现有的密集特征匹配模型在复杂真实场景下表现不佳,高精度模型通常速度慢、内存消耗大,限制了其实际应用。论文试图解决密集匹配在准确性、速度和内存效率之间的权衡问题,尤其是在具有挑战性的现实场景中提升鲁棒性和泛化能力。这个问题在计算机视觉领域并非全新,但综合性能瓶颈仍是一个亟待系统性突破的难题。
  • 关键思路
    提出一种全新的密集匹配架构与损失函数,结合多样化的训练分布,显著提升模型在复杂场景下的匹配能力;设计解耦的两阶段‘匹配- refinement’流程以加速训练,并通过自定义CUDA内核大幅降低refinement阶段的内存占用;引入DINOv3等基础模型增强特征表示,提升模型鲁棒性与公平性。相比现有方法,该工作在架构设计、训练策略和工程优化上进行了系统性创新,实现了精度与效率的双重突破。
  • 其它亮点
    实验设计全面,在多个标准数据集(如ScanNet、MegaDepth等)上验证了模型的优越性能;结果表明新模型显著优于先前方法,达到新的SOTA水平;代码已开源(https://github.com/Parskatt/romav2),具备良好的可复现性和社区贡献潜力;未来可进一步探索轻量化部署、跨域泛化以及与其他视觉任务(如SLAM、三维重建)的联合优化。
  • 相关研究
    1. LoFTR: Detector-Free Local Feature Matching with Transformers 2. DINOv2: Learning Robust Visual Features without Supervision 3. Sparse and Dense Feature Matching: A Survey 4. RAFT: Recurrent All-Pairs Field Transforms for Optical Flow 5. GLU-Net: Global-Local Universal Network for Dense Flow and Correspondence
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问