Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior

2024年03月14日
  • 简介
    最近的文本到三维生成研究表明,仅使用二维扩散监督进行三维生成往往会产生外观不一致的结果(例如,背面视图上的脸)和不准确的形状(例如,多余的腿的动物)。现有方法主要通过使用从三维数据渲染的图像重新训练扩散模型来解决这个问题,以确保多视角一致性,同时努力平衡二维生成质量和三维一致性。在本文中,我们提出了一个新的框架 Sculpt3D,它通过从检索到的参考对象中显式注入三维先验,而无需重新训练二维扩散模型来装备当前的流程。具体而言,我们通过稀疏光线采样方法演示了可以通过关键点监督来保证高质量和多样化的三维几何形状。此外,为了确保不同视角的准确外观,我们进一步调制了二维扩散模型的输出,以正确的模板视角模拟输出,而不改变生成对象的风格。这两种解耦设计有效地利用了参考对象的三维信息来生成三维对象,同时保持了二维扩散模型的生成质量。大量实验证明,我们的方法可以大大提高多视角一致性,同时保留忠实度和多样性。我们的项目页面可在以下网址找到:https://stellarcheng.github.io/Sculpt3D/.
  • 图表
  • 解决问题
    如何在文本到3D生成中保持多视角一致性和准确性?
  • 关键思路
    使用从参考对象中检索到的3D先验知识来解决多视角一致性和准确性问题,同时保持2D扩散模型的生成质量。
  • 其它亮点
    使用稀疏射线采样的关键点监督方法来保证高质量和多样性的3D几何形状;通过调制模板视图的正确模式来确保不改变生成对象的风格的前提下,保证不同视角的准确外观;实验结果表明,该方法可以大大提高多视角一致性,同时保留忠实度和多样性。
  • 相关研究
    在当前领域中,现有方法主要通过重新训练扩散模型来解决多视角一致性和准确性问题,但是该论文提出的方法是在不重新训练2D扩散模型的情况下,使用参考对象的3D先验知识来解决这个问题。与现有方法相比,该论文的方法具有更好的多视角一致性和生成质量。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问