MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View Stereo

ICLR(International Conference on Learning Representations) 2024
2024年01月22日
  • 简介
    最近学习型多视图立体视觉(MVS)方法的进展主要采用了具有注意机制的基于Transformer的模型。然而,现有方法并没有彻底研究Transformer对不同MVS模块的深远影响,导致深度估计能力有限。本文介绍了MVSFormer++,一种谨慎地最大化注意力固有特性以增强MVS流程各个组件的方法。具体而言,我们的方法涉及将跨视图信息注入预训练的DINOv2模型,以促进MVS学习。此外,我们针对特征编码器和代价体积正则化采用不同的注意机制,分别关注特征和空间聚合。此外,我们发现,一些设计细节会对MVS中Transformer模块的性能产生重大影响,包括归一化的3D位置编码、自适应注意力缩放以及层归一化的位置。在DTU、Tanks-and-Temples、BlendedMVS和ETH3D上的全面实验验证了所提出方法的有效性。值得注意的是,MVSFormer++在具有挑战性的DTU和Tanks-and-Temples基准测试中实现了最先进的性能。
  • 图表
  • 解决问题
    本论文旨在解决学习基于多视角立体视觉(MVS)方法时,transformer模型对不同MVS模块的影响不够深入的问题,从而提高深度估计能力。
  • 关键思路
    MVSFormer++方法通过将跨视角信息注入预训练的DINOv2模型来促进MVS学习,同时针对特征编码器和代价体积规则化采用不同的注意机制,分别关注特征和空间聚合。此外,作者还发现一些设计细节会对MVS中的transformer模块的性能产生重大影响。
  • 其它亮点
    论文在DTU、Tanks-and-Temples、BlendedMVS和ETH3D数据集上进行了全面实验,验证了所提出方法的有效性。MVSFormer++在挑战性的DTU和Tanks-and-Temples基准上取得了最先进的性能。此外,作者还开源了实现代码。
  • 相关研究
    最近的相关研究包括:《End-to-End Learning of Multi-View Stereo Reconstruction》、《DeepMVS: Learning Multi-View Stereopsis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论