RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

2024年04月10日
  • 简介
    我们介绍了一种名为RealmDreamer的技术,可以根据文本描述生成一般的前向3D场景。我们的技术通过优化3D高斯喷洒表示来匹配复杂的文本提示。我们利用最先进的文本到图像生成器初始化这些喷洒,并将它们提升到3D,计算遮挡体积。然后,我们将这个表示跨多个视图进行优化,作为一个带有图像条件扩散模型的3D修复任务。为了学习正确的几何结构,我们结合深度扩散模型,通过对修复模型的样本进行条件控制,给出了丰富的几何结构。最后,我们使用图像生成器的锐化样本进行微调。值得注意的是,我们的技术不需要视频或多视角数据,可以合成多种不同风格的高质量3D场景,包括多个对象。其通用性还允许从单个图像中合成3D。
  • 图表
  • 解决问题
    本论文旨在提出一种从文本描述中生成前向3D场景的技术,解决单张图片生成3D场景的问题。同时,该技术还可以生成多样化的3D场景。
  • 关键思路
    本论文提出了一种基于3D高斯平面图的表示方法,通过多视角3D修补和基于图像条件扩散模型的3D修复任务来优化这种表示方法,从而生成3D场景。此外,本论文还引入了深度扩散模型,通过对修复模型的样本进行条件化,学习正确的几何结构。
  • 其它亮点
    本论文的亮点在于:1. 提出了一种新的基于3D高斯平面图的表示方法;2. 引入了深度扩散模型,学习正确的几何结构;3. 实验结果表明,该技术可以生成多样化的3D场景,且质量较高;4. 该技术不需要视频或多视角数据,可以从单张图片中生成3D场景。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:1. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks;2. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks;3. Learning to Generate 3D Shapes with Generative Adversarial Networks。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论