M-LRM: Multi-view Large Reconstruction Model

2024年06月11日
  • 简介
    尽管最近大规模重建模型(LRM)取得了令人印象深刻的成果,但当将其输入从单张图像扩展到多张图像时,它表现出低效率、几何和纹理质量不佳以及收敛速度比预期慢等问题。这是因为LRM将3D重建公式化为一个简单的图像到3D转换问题,忽略了输入图像之间的强烈3D一致性。本文提出了一种多视角大规模重建模型(M-LRM),旨在以3D感知的方式高效地从多视角重建高质量的3D形状。具体而言,我们引入了一种多视角一致的交叉注意力机制,使得M-LRM能够准确地从输入图像中查询信息。此外,我们利用输入多视角图像的3D先验知识来初始化三平面标记。与LRM相比,我们提出的M-LRM可以生成$128 \times 128$分辨率的三平面NeRF,并生成高保真度的3D形状。实验研究表明,我们的模型比LRM具有更显著的性能提升和更快的训练收敛速度。项目页面:https://murphylmf.github.io/M-LRM/
  • 图表
  • 解决问题
    提出一种新的多视角大规模重建模型(M-LRM),以解决现有模型在处理多视角图像时存在的效率低下、几何和纹理质量不佳、收敛速度慢等问题。
  • 关键思路
    M-LRM采用多视角一致的交叉注意力机制,以3D感知方式高效地重建高质量的三维形状,并利用输入多视角图像的3D先验知识来初始化三平面令牌。
  • 其它亮点
    论文在多视角重建方面提出了新的解决方案,使用了三维先验知识和交叉注意力机制来提高重建质量和效率。实验表明,相对于现有模型,M-LRM能够生成更高保真度的三维形状,并且具有更快的训练收敛速度。研究者提供了相关的项目页面和开源代码。
  • 相关研究
    在多视角重建领域,还有一些相关的研究,如Multi-View Stereo Fusion、Multi-View Neural Surface Reconstruction等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论