BrightDreamer: Generic 3D Gaussian Generative Framework for Fast Text-to-3D Synthesis

简介

最近，通过将文本到图像模型与3D表示方法（例如高斯喷洒（GS））结合使用，通过得分蒸馏采样（SDS），文本到3D综合已经取得了有趣的进展。然而，现有方法的一个障碍是低效率，即每个提示的单个3D对象的优化。因此，必须从每个提示的优化转变为单阶段生成，以生成任何未见过的文本提示，这仍然具有挑战性。一个障碍是如何直接生成数百万个3D高斯来表示3D对象。本文介绍了BrightDreamer，一种端到端的单阶段方法，可以实现通用且快速（77ms）的文本到3D生成。我们的关键思想是将生成过程公式化为从预定义位置的锚点形状估计3D变形。为此，我们首先提出了一个文本引导形状变形（TSD）网络，以预测变形形状及其新位置，用作3D高斯的中心（一个属性）。为了估计其他四个属性（即缩放、旋转、不透明度和SH系数），我们设计了一种新颖的文本引导三平面生成器（TTG），用于生成3D对象的三平面表示。每个高斯的中心使我们能够将三平面特征转换为四个属性。最终可以以705帧每秒的速度呈现生成的3D高斯。广泛的实验证明了我们的方法优于现有方法。此外，BrightDreamer具有强大的语义理解能力，即使对于复杂的文本提示也是如此。项目代码可在https://vlislab22.github.io/BrightDreamer上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何实现快速的文本到3D生成？如何从单一的3D对象优化转向任意文本生成的一阶段生成？
关键思路

将生成过程转化为从预定义位置的锚定形状中估计三维变形。使用Text-guided Shape Deformation (TSD)网络预测变形的形状和新位置，并使用Text-guided Triplane Generator (TTG)生成三面图表示法，从而估计其他四个属性。生成的3D高斯可以在705帧/秒的速度下呈现。
其它亮点

论文提出了一种快速的文本到3D生成方法BrightDreamer，具有强大的语义理解能力。实验结果表明，该方法优于现有方法。该项目代码已经开源。
相关研究

最近的相关研究包括：1）Neural 3D Mesh Renderer；2）Generative Neural Networks for 3D Shape Reconstruction；3）3D-GAN：Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling。

BrightDreamer: Generic 3D Gaussian Generative Framework for Fast Text-to-3D Synthesis

提问交流

提问交流