Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer

2024年05月23日
  • 简介
    长期以来,从文本和图像生成高质量的三维模型一直是一个挑战,主要是由于缺乏可捕捉复杂几何分布的可扩展三维表示。在这项工作中,我们介绍了Direct3D,这是一种本地三维生成模型,可扩展到野外输入图像,而无需多视角扩散模型或SDS优化。我们的方法包括两个主要组件:Direct 3D变分自编码器(D3D-VAE)和Direct 3D扩散变换器(D3D-DiT)。D3D-VAE将高分辨率的三维形状有效地编码为紧凑且连续的潜在三面空间。值得注意的是,我们的方法直接使用半连续的表面采样策略监督解码后的几何形状,与以前依赖渲染图像作为监督信号的方法不同。D3D-DiT对编码的三维潜在变量的分布进行建模,并专门设计了融合三面潜在特征图的位置信息的方法,从而实现了可扩展到大规模三维数据集的本地三维生成模型。此外,我们引入了一种创新的图像到三维生成流程,结合语义和像素级图像条件,使模型能够生成与所提供的条件图像输入一致的三维形状。广泛的实验表明,我们的大规模预训练Direct3D比以前的图像到三维方法更为优越,实现了显著更好的生成质量和泛化能力,从而为三维内容创建建立了新的最先进技术。项目页面:https://nju-3dv.github.io/projects/Direct3D/.
  • 图表
  • 解决问题
    本文试图解决从文本和图像生成高质量3D模型的问题,尤其是在野外输入图像的情况下,同时不需要多视角扩散模型或SDS优化。
  • 关键思路
    本文提出了Direct3D,一种本地的3D生成模型,可扩展到野外输入图像,而不需要多视角扩散模型或SDS优化。它包括两个主要组件:Direct 3D变分自编码器(D3D-VAE)和Direct 3D扩散变压器(D3D-DiT)。D3D-VAE将高分辨率的3D形状有效地编码为紧凑且连续的潜在三平面空间。D3D-DiT对编码的3D潜变量分布进行建模,并特别设计了从三个特征映射中融合位置信息的方法,从而实现了可扩展到大规模3D数据集的本地3D生成模型。
  • 其它亮点
    本文的亮点包括:采用半连续表面采样策略直接监督解码几何形状,而不是依赖于渲染图像作为监督信号;引入了一个创新的图像到3D生成管道,包括语义和像素级图像条件,使模型能够生成与提供的条件图像输入一致的3D形状;通过大量实验表明,Direct3D的性能优于以前的图像到3D方法,实现了更好的生成质量和泛化能力,因此为3D内容创建建立了新的技术水平。
  • 相关研究
    最近的相关研究包括:《Generative Modeling of 3D Structures from Images with Spatially-Adaptive Normalization》、《Learning to Generate 3D Meshes with Two-Stage Refinement and Landmark-based Representation》、《Pixel2Mesh++: Multi-View 3D Mesh Generation via Deformation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论