Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting

2024年03月15日
  • 简介
    虽然文本到三维和图像到三维生成任务已经受到了相当大的关注,但它们之间一个重要但未被充分开发的领域是可控文本到三维生成,这是我们在本文中主要关注的。为了解决这个任务,我们采用以下两种方法:1)我们引入了一种新的神经网络架构Multi-view ControlNet(MVControl),旨在通过集成额外的输入条件(如边缘、深度、法线和涂鸦地图)来增强现有的预训练多视角扩散模型。我们的创新在于引入了一个调节模块,利用从输入条件图像和相机姿态计算出的局部和全局嵌入来控制基础扩散模型。一旦训练完成,MVControl能够提供3D扩散指导,用于基于优化的3D生成。2)我们提出了一种高效的多阶段3D生成流程,利用最近大型重建模型和得分蒸馏算法的优势。基于我们的MVControl架构,我们采用了一种独特的混合扩散指导方法来指导优化过程。为了追求效率,我们采用了3D高斯函数作为我们的表示,而不是常用的隐式表示。我们还开创了SuGaR的使用,这是一种将高斯函数绑定到网格三角面上的混合表示方法。这种方法缓解了3D高斯函数中几何形状不佳的问题,并使得直接在网格上雕刻细粒度几何形状成为可能。大量实验证明,我们的方法实现了强大的泛化能力,并实现了高质量3D内容的可控生成。
  • 图表
  • 解决问题
    本文主要解决的问题是可控的文本到三维模型生成,这是一个较为新的问题。
  • 关键思路
    本文提出了Multi-view ControlNet (MVControl)神经网络架构,通过集成额外的输入条件,如边缘、深度、法线和涂鸦地图等,来增强现有的预训练多视角扩散模型。创新之处在于引入了一个调节模块,使用从输入条件图像和相机姿态计算出的局部和全局嵌入来控制基础扩散模型。同时,本文还提出了一种高效的多阶段三维生成流程,利用了最近的大型重建模型和分数蒸馏算法。通过MVControl架构,采用独特的混合扩散指导方法来指导优化过程。本文采用三维高斯函数作为表示形式,而不是常用的隐式表示形式,还首创了SuGaR,一种将高斯函数绑定到网格三角形面的混合表示方法。这种方法缓解了三维高斯函数中几何形状不佳的问题,并使得可以在网格上直接雕刻细粒度的几何形状。
  • 其它亮点
    本文的亮点包括:采用Multi-view ControlNet (MVControl)神经网络架构来增强现有的预训练多视角扩散模型;提出了一种高效的多阶段三维生成流程,利用了最近的大型重建模型和分数蒸馏算法;采用三维高斯函数作为表示形式,并首创了SuGaR,一种将高斯函数绑定到网格三角形面的混合表示方法。实验结果表明,该方法具有鲁棒的泛化能力,并能够实现高质量三维内容的可控生成。
  • 相关研究
    最近的相关研究包括:文本到三维模型生成和控制的相关研究,以及多视角重建和三维扩散模型的相关研究。其中,一些相关论文包括:《Pixel2Mesh++: Multi-View 3D Mesh Generation via Deformation》、《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论