Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting

简介

虽然文本到3D和图像到3D生成任务已经受到了相当大的关注，但它们之间一个重要但未被充分探索的领域是可控的文本到3D生成，这是我们本文的主要关注点。为了解决这个任务，我们提出了多视角控制网络(MVControl)，这是一种新颖的神经网络架构，旨在通过集成额外的输入条件(如边缘、深度、法线和涂鸦地图)来增强现有的预训练的多视角扩散模型。我们的创新在于引入一个条件模块，它使用从输入条件图像和相机姿态计算的局部和全局嵌入来控制基础扩散模型。一旦训练完成，MVControl能够为基于优化的3D生成提供3D扩散指导。其次，我们提出了一种高效的多阶段3D生成流水线，利用最近的大型重建模型和分数蒸馏算法的优点。在MVControl架构的基础上，我们采用了一种独特的混合扩散指导方法来指导优化过程。为了追求效率，我们采用了3D高斯函数作为我们的表示，而不是常用的隐式表示。我们还开创了SuGaR的使用，这是一种将高斯函数绑定到网格三角形面上的混合表示方法。这种方法缓解了3D高斯函数中几何形状不佳的问题，并使得在网格上直接雕刻细粒度几何形状成为可能。大量实验证明，我们的方法实现了强大的泛化能力，并能够实现高质量3D内容的可控生成。
图表
解决问题

本论文旨在解决可控文本到3D生成的问题，提出了一种新的神经网络架构和多阶段3D生成流程。这个问题在当前领域中尚未被充分探索。
关键思路

本论文的关键思路是使用Multi-view ControlNet (MVControl)神经网络架构，通过引入额外的输入条件（如边缘、深度、法向量和涂鸦地图）来增强现有的预训练多视角扩散模型，并使用局部和全局嵌入来控制基础扩散模型。同时，使用3D Gaussians作为表示方法，采用SuGaR方法将高斯函数绑定到网格三角形面上，以便直接在网格上进行精细几何雕刻。这种方法实现了高质量3D内容的可控生成。
其它亮点

本论文的实验结果表明，所提出的方法具有良好的泛化性能，并能够生成高质量的3D内容。论文使用了大量的数据集和开源代码，并且提供了详细的实验设计和结果分析。此外，本文采用了最新的大规模重建模型和得分蒸馏算法，这些算法也值得进一步研究。
相关研究

最近的相关研究包括：《Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings》、《DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation》、《Neural 3D Mesh Renderer》等。

Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting

评论