- 简介我们介绍了一种名为RealmDreamer的技术,可以根据文本描述生成一般的前向3D场景。我们的技术通过优化3D高斯喷洒表示来匹配复杂的文本提示。我们利用最先进的文本到图像生成器初始化这些喷洒,并将它们提升到3D,计算遮挡体积。然后,我们将这个表示跨多个视图进行优化,作为一个带有图像条件扩散模型的3D修复任务。为了学习正确的几何结构,我们结合深度扩散模型,通过对修复模型的样本进行条件控制,给出了丰富的几何结构。最后,我们使用图像生成器的锐化样本进行微调。值得注意的是,我们的技术不需要视频或多视角数据,可以合成多种不同风格的高质量3D场景,包括多个对象。其通用性还允许从单个图像中合成3D。
- 图表
- 解决问题本论文旨在提出一种从文本描述中生成前向3D场景的技术,解决单张图片生成3D场景的问题。同时,该技术还可以生成多样化的3D场景。
- 关键思路本论文提出了一种基于3D高斯平面图的表示方法,通过多视角3D修补和基于图像条件扩散模型的3D修复任务来优化这种表示方法,从而生成3D场景。此外,本论文还引入了深度扩散模型,通过对修复模型的样本进行条件化,学习正确的几何结构。
- 其它亮点本论文的亮点在于:1. 提出了一种新的基于3D高斯平面图的表示方法;2. 引入了深度扩散模型,学习正确的几何结构;3. 实验结果表明,该技术可以生成多样化的3D场景,且质量较高;4. 该技术不需要视频或多视角数据,可以从单张图片中生成3D场景。
- 最近在这个领域中,还有一些相关的研究,如:1. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks;2. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks;3. Learning to Generate 3D Shapes with Generative Adversarial Networks。
沙发等你来抢
去评论
评论
沙发等你来抢