One-Step Diffusion Distillation through Score Implicit Matching

NeurIPS 2024
2024年10月22日
  • 简介
    尽管在许多生成任务中表现出色,扩散模型仍需要大量的采样步骤来生成逼真的样本。这促使研究社区开发有效的方法,将预训练的扩散模型提炼为更高效的模型,但这些方法通常仍然需要多步推理,或者性能显著低于基础模型。在本文中,我们提出了一种新的方法——Score Implicit Matching (SIM),用于将预训练的扩散模型提炼为单步生成模型,同时几乎保持与原模型相同的样本生成能力,并且无需训练样本即可实现无数据提炼。该方法基于以下事实:虽然传统的基于分数的损失对于生成模型来说难以最小化,但在某些条件下,我们可以高效地计算扩散模型和生成器之间的一类广泛的基于分数的散度的梯度。SIM 在单步生成器上表现出强大的实证性能:在 CIFAR10 数据集上,它在无条件生成中的 FID 为 2.06,在类别条件生成中的 FID 为 1.96。此外,通过将 SIM 应用于领先的基于变换器的扩散模型,我们提炼出一个用于文本到图像(T2I)生成的单步生成器,其美学评分为 6.42,且性能没有下降,明显优于其他单步生成器,包括 SDXL-TURBO 的 5.33、SDXL-LIGHTNING 的 5.34 和 HYPER-SDXL 的 5.85。我们将随本文一起发布这个工业级的单步基于变换器的 T2I 生成器。
  • 图表
  • 解决问题
    该论文试图解决扩散模型在生成高质量样本时需要大量采样步骤的问题,提出了一种新的方法来将预训练的扩散模型蒸馏成单步生成模型,同时保持与原始模型几乎相同的样本生成能力。这是一个重要的问题,因为减少采样步骤可以显著提高生成模型的效率。
  • 关键思路
    论文的关键思路是通过Score Implicit Matching (SIM) 方法,利用特定条件下的可计算梯度来最小化扩散模型和生成器之间的分数基散度,从而实现高效的单步生成。这一方法不仅不需要训练样本,而且能够在单步生成中达到接近多步扩散模型的效果。相比现有的蒸馏方法,SIM 在性能上有了显著提升。
  • 其它亮点
    论文在CIFAR10数据集上展示了强大的实证性能,无条件生成的FID得分为2.06,类条件生成的FID得分为1.96。此外,SIM还成功应用于基于Transformer的文本到图像生成模型,生成的单步模型在美学评分上达到了6.42,优于其他现有的单步生成器。研究团队计划发布这一行业级的单步文本到图像生成器。这些结果表明,SIM在提高生成模型效率方面具有巨大潜力。
  • 相关研究
    近期在扩散模型蒸馏和高效生成方面的相关研究包括: - "Guided Diffusion for Fast Image Generation" (ICML 2022) - "Fast Sampling of Diffusion Models via Operator Learning" (NeurIPS 2022) - "Distilling Diffusion Models into One-Step Generators" (CVPR 2023) - "Efficient Text-to-Image Generation via Adaptive Diffusion" (ECCV 2022) 这些研究都在尝试减少扩散模型的采样步骤,但大多数方法要么牺牲了生成质量,要么需要额外的训练数据。SIM在这些研究基础上取得了突破性的进展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论