GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement

2024年06月09日
  • 简介
    我们提出了一种新颖的方法,用于从多视图图像中重建3D网格。我们的方法受到大型重建模型(如LRM)的启发,该模型使用基于变压器的三面体生成器和在多视图图像上训练的神经辐射场(NeRF)模型。然而,在我们的方法中,我们引入了几个重要的修改,使我们能够显着提高3D重建质量。首先,我们检查了原始的LRM架构,并发现了几个缺点。随后,我们引入了相应的修改LRM架构,这些修改导致了更好的多视图图像表示和更高效的训练。其次,为了改善几何重建并使监督在完整的图像分辨率下进行,我们以可微分的方式从NeRF场中提取网格,并通过网格渲染微调NeRF模型。这些修改使我们能够在2D和3D评估指标上实现最先进的性能,例如在Google扫描对象(GSO)数据集上的PSNR为28.67。尽管取得了这些优越的结果,我们的前馈模型仍然难以重建复杂的纹理,例如资产上的文本和肖像。为了解决这个问题,我们引入了一个轻量级的每个实例纹理细化过程。这个过程只需4秒就可以使用输入的多视图图像在网格表面微调三面体表示和NeRF颜色估计模型。这种细化将PSNR提高到29.79,并实现了复杂纹理(如文本)的忠实重建。此外,我们的方法还可以实现各种下游应用,包括从文本或图像生成3D模型。
  • 图表
  • 解决问题
    本论文旨在解决多视图图像的三维网格重建问题,特别是在复杂纹理的情况下。这是一个新问题。
  • 关键思路
    该论文提出了一种基于转换器的三面体生成器和神经辐射场(NeRF)模型的方法,引入了多个重要修改,包括改进了多视图图像表示和更高效的训练,以及通过可微分的方式从NeRF场中提取网格,从而实现了更好的几何重建和全分辨率的监督。
  • 其它亮点
    该方法在Google扫描物体(GSO)数据集上实现了28.67的PSNR,优于现有方法。此外,该方法还引入了一种轻量级的纹理细化过程,可以在4秒内使用多视图图像对三面体表示和NeRF颜色估计模型进行微调,从而实现了更好的纹理重建。该方法还可以用于文本或图像到三维生成等下游应用。论文提供了数据集和开源代码。
  • 相关研究
    最近的相关研究包括DeepSDF、Pixel2Mesh和Occupancy Networks等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论