RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion

向作者提问

NEW

简介

我们介绍了一种名为RealmDreamer的技术，可以根据文本描述生成一般的前向3D场景。我们的技术通过优化3D高斯喷洒表示来匹配复杂的文本提示。我们利用最先进的文本到图像生成器初始化这些喷洒，并将它们提升到3D，计算遮挡体积。然后，我们将这个表示跨多个视图进行优化，作为一个带有图像条件扩散模型的3D修复任务。为了学习正确的几何结构，我们结合深度扩散模型，通过对修复模型的样本进行条件控制，给出了丰富的几何结构。最后，我们使用图像生成器的锐化样本进行微调。值得注意的是，我们的技术不需要视频或多视角数据，可以合成多种不同风格的高质量3D场景，包括多个对象。其通用性还允许从单个图像中合成3D。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种从文本描述中生成前向3D场景的技术，解决单张图片生成3D场景的问题。同时，该技术还可以生成多样化的3D场景。
关键思路

本论文提出了一种基于3D高斯平面图的表示方法，通过多视角3D修补和基于图像条件扩散模型的3D修复任务来优化这种表示方法，从而生成3D场景。此外，本论文还引入了深度扩散模型，通过对修复模型的样本进行条件化，学习正确的几何结构。
其它亮点

本论文的亮点在于：1. 提出了一种新的基于3D高斯平面图的表示方法；2. 引入了深度扩散模型，学习正确的几何结构；3. 实验结果表明，该技术可以生成多样化的3D场景，且质量较高；4. 该技术不需要视频或多视角数据，可以从单张图片中生成3D场景。
相关研究

最近在这个领域中，还有一些相关的研究，如：1. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks；2. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks；3. Learning to Generate 3D Shapes with Generative Adversarial Networks。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问