- 简介以前的尝试已经成功地从文本或图像中生成了可供生产使用的3D资产。然而,这些方法主要采用NeRF或3D高斯表示,这些表示方法不擅长生成现代渲染流程所需的平滑、高质量几何形状。在本文中,我们提出了LDM,这是一个新颖的前馈框架,能够从单个图像或文本提示中生成高保真度、光照解耦的纹理网格。首先,我们利用多视角扩散模型从单个图像或文本提示中生成稀疏的多视角输入,然后使用基于Transformer的模型从这些稀疏的多视角图像输入中预测一个张量SDF场。最后,我们采用基于梯度的网格优化层来优化这个模型,使其能够从中提取高质量的纹理网格的SDF场。广泛的实验表明,我们的方法可以在几秒钟内生成多样化、高质量的3D网格资产和相应的分解RGB纹理。
- 图表
- 解决问题本论文旨在解决从单张图片或文本提示中生成高保真度、照明分离的纹理网格的问题。现有的NeRF或3D Gaussian表示方法不能产生现代渲染流水线所需的平滑、高质量的几何图形。
- 关键思路本论文提出了一种新的前馈框架LDM,能够从单张图片或文本提示中生成高质量的纹理网格。首先,利用多视角扩散模型从单张图像或文本提示中生成稀疏的多视角输入,然后使用基于Transformer的模型从这些稀疏的多视角图像输入中预测张量SDF场。最后,使用基于梯度的网格优化层来优化模型,使其能够从中提取高质量的纹理网格。
- 其它亮点本论文的亮点包括:能够在几秒钟内生成多样化、高质量的3D网格资产和相应的分解RGB纹理;使用了多视角扩散模型和Transformer模型,以及基于梯度的网格优化层;实验结果表明,该方法的性能优于现有的方法。
- 在这个领域中的其他相关研究包括:NeRF或3D Gaussian表示方法;从单张图片中生成3D模型的方法;使用Transformer模型从文本中生成3D模型的方法。


提问交流