Doppelgangers++: Improved Visual Disambiguation with Geometric 3D Features

2024年12月08日
  • 简介
    精确的3D重建经常受到视觉混叠的影响,其中视觉上相似但不同的表面(即“替身”)被错误匹配。这些虚假匹配会扭曲结构光运动(SfM)过程,导致模型元素错位和精度下降。以前的方法通过在精心挑选的数据集上训练CNN分类器来解决这一问题,但这些方法在处理多样化的现实场景时泛化能力较差,并且可能需要大量的参数调整。在这项工作中,我们提出了Doppelgangers++,一种增强替身检测并提高3D重建精度的方法。我们的贡献包括一个多样化的训练数据集,该数据集包含来自日常场景的地理标记图像,以扩展超越基于地标的数据集的鲁棒性。我们还提出了一种基于Transformer的分类器,该分类器利用了MASt3R模型中的3D感知特征,在域内和域外测试中均实现了更高的精度和召回率。Doppelgangers++可以无缝集成到标准的SfM和MASt3R-SfM管道中,提供跨不同场景的高效性和适应性。为了评估SfM的准确性,我们引入了一种基于地理标签的自动化方法来验证重建模型,消除了手动检查的需要。通过广泛的实验,我们证明Doppelgangers++显著提高了成对视觉歧义的分辨能力,并在复杂多样的场景中改善了3D重建质量。
  • 图表
  • 解决问题
    论文试图解决视觉别名(visual aliasing)问题,即在3D重建过程中,视觉上相似但实际不同的表面(称为‘替身’或‘doppelgangers’)被错误匹配,导致结构从运动(SfM)过程中的模型元素错位和精度下降。这是一个长期存在的问题,尤其是在处理多样化的现实场景时。
  • 关键思路
    论文提出了一种名为Doppelgangers++的方法,通过构建一个包含地理标记的日常场景图像的多样化训练数据集,以及一个基于Transformer的分类器,该分类器利用MASt3R模型的3D感知特征,来提高替身检测的准确性和泛化能力。与现有方法相比,Doppelgangers++不仅提高了在域内测试的性能,还在域外测试中表现出色,增强了3D重建的鲁棒性。
  • 其它亮点
    1. 构建了一个包含地理标记的日常场景图像的多样化训练数据集,扩展了模型的泛化能力。 2. 提出了一个基于Transformer的分类器,结合3D感知特征,显著提高了替身检测的精度和召回率。 3. 开发了一种自动化的、基于地理标签的3D模型验证方法,减少了手动检查的需求。 4. 通过广泛的实验验证,证明了Doppelgangers++在复杂和多样化场景中显著提升了3D重建的质量。 5. 代码和数据集已开源,便于其他研究人员复现和进一步研究。
  • 相关研究
    1. “Learning to Detect Visual Aliasing in Structure from Motion” - 这篇论文提出了使用CNN分类器来检测视觉别名问题,但其泛化能力有限。 2. “3D-Aware Image Synthesis with Diffusion Models” - 介绍了如何生成具有3D感知的图像,为3D重建提供了新的视角。 3. “Geo-Tagged Image Datasets for Visual Localization” - 探讨了地理标记图像数据集在视觉定位中的应用,为本论文的数据集构建提供了参考。 4. “Transformer-Based Feature Matching for 3D Reconstruction” - 利用Transformer模型进行特征匹配,提高了3D重建的精度。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论