Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

2023年12月07日
  • 简介
    最近,扩散模型在文本到图像(T2I)生成方面取得了显著进展,能够合成高保真度和多样化内容的图像。尽管有这种进展,扩散模型内的潜在空间平滑性仍然很少被探索。平滑的潜在空间确保输入潜在的微小扰动对应于输出图像的稳定变化。这种属性在下游任务中非常有益,包括图像插值、反演和编辑。在这项工作中,我们通过观察到由微小潜在变化引起的明显视觉波动,揭示了扩散潜在空间的非平滑性。为了解决这个问题,我们提出了平滑扩散(Smooth Diffusion),这是一种新的扩散模型类别,既可以高效地运行,又可以平滑。具体而言,我们引入了逐步变化正则化来强制执行任意输入潜在的变化和输出图像的变化之间的比例在任何扩散训练步骤中都是恒定的。此外,我们设计了插值标准差(ISTD)度量来有效评估扩散模型的潜在空间平滑性。广泛的定量和定性实验表明,平滑扩散不仅在T2I生成方面是更理想的解决方案,而且在各种下游任务中也是如此。平滑扩散被实现为一种即插即用的平滑-逐步变化正则化(Smooth-LoRA),可与各种社区模型配合使用。代码可在https://github.com/SHI-Labs/Smooth-Diffusion上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决扩散模型中潜在空间平滑性的问题,以确保输入变化对应于输出图像的稳定变化。这是否是一个新问题?
  • 关键思路
    论文提出了一种新的扩散模型类别——Smooth Diffusion,通过引入Step-wise Variation Regularization来实现潜在空间平滑性,从而在T2I生成和其他下游任务中表现更优。
  • 其它亮点
    通过设计插值标准差(ISTD)度量潜在空间平滑性,论文在多个数据集上进行了广泛的定量和定性实验,证明了Smooth Diffusion在T2I生成和其他下游任务中的优越性。Smooth Diffusion是一个即插即用的Smooth-LoRA,可与各种社区模型配合使用。代码已在GitHub上开源。
  • 相关研究
    最近的相关研究包括《Generative Modeling with Sparse Transformers》、《Generative Pretraining from Pixels》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问