- 简介将预训练的大规模文本到图像扩散模型用于文本到3D生成已经显示出很大的潜力,但仍然存在不一致的3D几何结构(Janus问题)和严重的伪影。上述问题主要源于2D扩散模型在提取时缺乏3D意识。在这项工作中,我们提出了GeoDream,一种新颖的方法,将显式的广义3D先验与2D扩散先验相结合,以增强获得明确的3D一致几何结构的能力,而不会牺牲多样性或保真度。具体而言,我们首先利用多视图扩散模型生成姿态图像,然后从预测的图像构建代价体,作为本地3D几何先验,确保在3D空间中的空间一致性。随后,我们进一步提出利用3D几何先验通过解耦设计解锁2D扩散先验中3D意识的巨大潜力。值得注意的是,解耦2D和3D先验使我们能够进一步精细化3D几何先验。我们证明,精细化的3D几何先验有助于提高2D扩散先验的3D感知能力,反过来为3D几何先验的精细化提供了更好的指导。我们的数字和视觉比较表明,GeoDream生成更具3D一致性的纹理网格,并具有高分辨率的逼真渲染(即1024×1024),并更加密切地遵循语义连贯性。
- 图表
- 解决问题GeoDream论文旨在解决文本到三维模型生成过程中的Janus问题和严重伪影问题,通过将2D扩散先验与显式的广义3D先验相结合,提高获取一致性3D几何结构的能力。
- 关键思路GeoDream的关键思路是通过使用多视图扩散模型生成姿势图像,然后从预测的图像构建成本体积,作为本地3D几何先验,确保在3D空间中的空间一致性。随后,通过解耦设计,利用3D几何先验来解锁2D扩散先验中的3D感知潜力,从而进一步提炼3D几何先验。这种解耦允许我们进一步改进3D几何先验,从而提高2D扩散先验的3D感知能力,反过来又为改进3D几何先验提供了优越的指导。
- 其它亮点论文使用了GeoText数据集和ShapeNet数据集进行实验,并与现有的文本到三维模型生成方法进行了比较。实验结果表明,GeoDream生成的纹理网格更符合3D一致性,并具有高分辨率的逼真渲染。此外,GeoDream还提供了开源代码。
- 最近在这个领域中,还有一些相关的研究,如《Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings》和《3D-GPT: Generative Pre-training on 3D Point Clouds》。
沙发等你来抢
去评论
评论
沙发等你来抢