- 简介最近,开放式的三维重建模型引起了广泛关注。然而,现有方法通常需要昂贵的训练成本,而且难以提取高质量的三维网格,这是由于缺乏足够的三维归纳偏差。在这项工作中,我们介绍了MeshFormer,一种稀疏视角重建模型,它明确利用了三维本地结构、输入指导和训练监督。具体来说,我们不使用三面图表示法,而是将特征存储在三维稀疏体素中,并将变换器与三维卷积相结合,利用明确的三维结构和投影偏差。除了稀疏视角的RGB输入外,我们还要求网络输入和生成相应的法线贴图。输入法线贴图可以通过二维扩散模型进行预测,从而显著地帮助几何学习的指导和细化。此外,通过将有符号距离函数(SDF)监督与表面渲染相结合,我们直接学习生成高质量的网格,无需复杂的多阶段训练过程。通过结合这些明确的三维偏差,MeshFormer可以高效地训练,并提供具有细粒度几何细节的高质量纹理网格。它还可以与二维扩散模型集成,以实现快速的单图像到三维和文本到三维任务。项目页面:https://meshformer3d.github.io。
- 图表
- 解决问题本论文旨在解决现有的开放世界三维重建模型在缺乏足够三维归纳偏差的情况下,通常需要昂贵的训练成本,并且难以提取高质量的三维网格的问题。
- 关键思路MeshFormer是一种稀疏视图重建模型,明确利用3D本地结构、输入指导和训练监督。通过在三维稀疏体素中存储特征,并将变压器与三维卷积相结合,以利用显式的3D结构和投影偏差,而不是使用三面板表示。此外,我们要求网络接受输入和生成相应的法线图。输入法线图可以通过二维扩散模型预测,显着有助于几何学习的指导和细化。此外,通过将带符号距离函数(SDF)监督与表面渲染相结合,我们直接学习生成高质量的网格,无需复杂的多阶段训练过程。
- 其它亮点该模型能够高效地训练,并提供具有细粒度几何细节的高质量纹理网格。它还可以与二维扩散模型结合使用,以实现快速的单图像到三维和文本到三维任务。论文附有项目主页,提供了数据集和开源代码。
- 最近在这个领域中,还有一些相关的研究,例如:NeRF、PIFu、DeepSDF等。
沙发等你来抢
去评论
评论
沙发等你来抢