OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control

简介

在文本转3D技术的不断发展中，Dreamfusion展示了其熟练掌握Score Distillation Sampling（SDS）技术的能力，以优化NeRF等隐式表示方法。该过程通过预训练的大规模文本转图像扩散模型的蒸馏实现。然而，Dreamfusion遇到了保真度和效率的限制：它面临多头Janus问题，并展现出相对较慢的优化过程。为了解决这些挑战，我们引入了OrientDream，这是一个针对文本提示的高效和多视角一致的3D生成的摄像机方向条件框架。我们的策略强调在2D文本到图像扩散模块的预训练中实现显式的摄像机方向条件特征。该特征有效利用了来自MVImgNet的大规模外部多视角数据集来改进和增强其功能。随后，我们利用预先条件的2D图像作为优化随机初始化的隐式表示（NeRF）的基础。这个过程通过一种分离的反向传播技术显著加快，允许在每个优化周期中多次更新隐式参数。我们的实验表明，我们的方法不仅能够产生具有一致多视角属性的高质量NeRF模型，而且实现了比现有方法显著更快的优化速度，这是由比较指标量化的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过引入显式的相机方向条件特征，解决从文本提示生成多视角一致的高质量3D模型的问题，并提高优化速度。
关键思路

论文的关键思路是在2D文本到图像扩散模块的预训练中引入显式的相机方向条件特征，并利用外部多视角数据集MVImgNet来改进其功能。然后使用预先条件的2D图像作为优化隐式表示（NeRF）的基础，并通过解耦的反向传播技术显着加速优化过程。
其它亮点

论文的亮点包括使用MVImgNet数据集来改进2D文本到图像扩散模块的预训练，提出了一种显式的相机方向条件特征来生成高质量、多视角一致的3D模型，并通过解耦的反向传播技术显着加速了优化过程。实验结果表明，该方法不仅能够生成高质量的NeRF模型，而且速度明显快于现有方法。
相关研究

最近的相关研究包括NeRF、Dreamfusion等。

OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control

提问交流

提问交流