ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation

2024年07月02日
  • 简介
    通过利用文本到图像扩散先验,分数蒸馏可以合成3D内容,而无需配对的文本-3D训练数据。最近的研究不再花费数小时在线优化每个文本提示,而是专注于学习一个文本到3D生成网络,以摊销多个文本-3D关系,可以在几秒钟内合成3D内容。然而,由于难以将预训练扩散先验与各种文本提示的渲染图像分布对齐,现有的分数蒸馏方法很难扩展到大量文本提示。目前的最新技术,如变分分数蒸馏,微调预训练的扩散模型以最小化噪声预测误差,以对齐分布,但这种方法不稳定,会损害模型对众多文本提示的理解能力。基于观察到扩散模型在较早的时间步长上具有较低的噪声预测误差,我们提出了异步分数蒸馏(ASD),通过将扩散时间步长向较早的时间步长移动,最小化噪声预测误差。ASD训练稳定,并可扩展到100k个提示。它减少了噪声预测误差,而不改变预训练扩散模型的权重,从而保持其对提示的强大理解能力。我们在不同的2D扩散模型(包括稳定扩散和MVDream)以及不同的文本到3D生成器(包括Hyper-iNGP、3DConv-Net和Triplane-Transformer)上进行了广泛的实验。结果表明,ASD在稳定的3D生成器训练、高质量的3D内容合成以及其优越的提示一致性方面非常有效,特别是在大提示语料库下。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过异步分数蒸馏方法(ASD)解决使用大量文本提示合成高质量3D内容时,预训练扩散模型分数分布与各种文本提示呈现的图像分布不一致的问题。
  • 关键思路
    ASD通过将扩散时间步移动到较早的时间步,来最小化噪声预测误差,从而实现稳定的3D生成器训练,高质量3D内容合成,以及更好的提示一致性。ASD不改变预训练扩散模型的权重,因此保持了其对提示的强理解能力。
  • 其它亮点
    论文使用了稳定扩散和MVDream等不同的2D扩散模型,以及Hyper-iNGP、3DConv-Net和Triplane-Transformer等不同的文本到3D生成器。实验结果表明,ASD在稳定的3D生成器训练,高质量3D内容合成以及大型提示语料库下的提示一致性方面具有优越性。
  • 相关研究
    最近的相关研究包括Variational Score Distillation等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问