NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

解决问题:本篇论文的目标是通过引入神经场和潜在扩散模型,提出一种新的生成模型NeuralField-LDM,用于自动生成高质量的三维场景。这是一个新的问题,因为当前的场景生成模型大多数都是基于二维图像,而非三维场景。

关键思路:论文中的关键思路是引入神经场和潜在扩散模型,并将其应用于三维场景生成。具体地,作者首先训练了一个场景自编码器,将图像和姿态对表示为神经场,然后将其压缩到潜在空间中。接着,采用分层潜在扩散模型来完成场景的生成。相比当前领域的研究,该论文的思路有新意,因为它将神经场和潜在扩散模型结合起来,用于三维场景生成。

其他亮点:该论文的亮点包括:1)NeuralField-LDM模型在场景生成方面取得了显著的改进;2)该模型可以用于各种三维内容的生成,包括条件场景生成、场景修复和场景风格操作。作者还提供了数据集和开源代码,方便其他研究者深入研究。

关于作者:本文的主要作者包括Seung Wook Kim、Bradley Brown等人,他们来自美国加州大学伯克利分校。Seung Wook Kim曾在Google Brain研究组工作,其代表作包括《Deep Video Portraits》;Bradley Brown曾在CMU机器学习部门工作,其代表作包括《Unsupervised Learning of Depth and Ego-Motion from Video》。

相关研究:近期其他相关的研究包括《Neural Scene Graphs for Generating 3D Scenes from Natural Language》(Justin Johnson等,斯坦福大学)、《Generative Modeling of 3D Structures from Images with Spatially Varying Lighting》(Jiajun Wu等,MIT)等。

论文摘要:NeuralField-LDM:使用分层潜在扩散模型生成场景。自动生成高质量的现实世界3D场景对于虚拟现实和机器人模拟等应用具有极大的兴趣。为此,我们介绍了NeuralField-LDM,这是一种生成模型,能够合成复杂的3D环境。我们利用已经成功应用于高效高质量2D内容创建的潜在扩散模型。我们首先训练一个场景自编码器,将一组图像和姿态对表示为神经场,表示为密度和特征体素网格,可以投影以产生场景的新视图。为了进一步压缩这种表示,我们训练了一个潜在自编码器,将体素网格映射到一组潜在表示。然后,将分层扩散模型拟合到潜在模型中,以完成场景生成流程。我们在现有最先进的场景生成模型上实现了实质性的改进。此外,我们展示了NeuralField-LDM如何用于各种3D内容创建应用,包括条件场景生成、场景修复和场景样式操作。

内容中包含的图片若涉及版权问题,请及时与我们联系删除