Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields

解决问题:本篇论文旨在解决文本驱动的3D场景生成中存在的真实感和复杂几何结构限制的问题。

关键思路:本文采用了NeRF作为3D场景的表示,并结合预训练的文本到图像扩散模型来约束3D重建以反映场景描述。具体来说,采用扩散模型推断与文本相关的图像作为内容先验,并使用单目深度估计方法提供几何先验。利用内容和几何先验来更新NeRF模型。为了保证不同视角之间的纹理和几何一致性,引入了逐步场景修复和更新策略。本方法只需要自然语言描述作为输入,无需额外的训练数据。实验结果表明,相比现有方法,Text2NeRF在从各种自然语言提示生成逼真、多视角一致和多样化的3D场景方面表现更优。

其他亮点:本文的实验设计充分,使用了多个数据集进行验证,还开源了代码。此外,本文的方法可以应用于游戏、电影和元宇宙等领域,具有广泛的应用前景。

关于作者:主要作者中,Jing Liao是北京大学计算机科学技术研究所的教授,曾在计算机视觉、深度学习等领域做出过多项贡献。Jingbo Zhang, Xiaoyu Li, Ziyu Wan和Can Wang均是北京大学计算机科学技术研究所的博士生或硕士生,他们的研究兴趣主要集中在计算机视觉和深度学习等领域。

相关研究:近期其他相关研究包括:

  • "Generative 3D Scene Graphs from Layouts" (Johanna Wald et al., University of California, Berkeley)
  • "NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections" (Ricardo Martin-Brualla et al., Google Research)
  • "Text2Scene: Generating Compositional Scenes from Textual Descriptions" (Chen-Hsuan Lin et al., University of California, Berkeley)

论文摘要:本文介绍了一种名为Text2NeRF的方法,它能够纯粹从文本提示中生成具有复杂几何结构和高保真度纹理的广泛的3D场景。为此,我们采用NeRF作为3D表示,并利用预训练的文本到图像扩散模型来限制NeRF的3D重建,以反映场景描述。具体来说,我们使用扩散模型推断与文本相关的图像作为内容先验,并使用单目深度估计方法提供几何先验。内容和几何先验都用于更新NeRF模型。为了保证不同视角之间的纹理和几何一致性,我们引入了一种渐进式场景修补和更新策略,用于场景的新视角合成。我们的方法不需要额外的训练数据,只需要自然语言描述场景作为输入。大量实验表明,我们的Text2NeRF在从各种自然语言提示中生成逼真、多视角一致和多样化的3D场景方面优于现有方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除