Diffusion Models Are Innate One-Step Generators

2024年05月31日
  • 简介
    扩散模型(DMs)在图像生成和其他领域取得了巨大成功。通过通过基于训练有素的评分模型定义的SDE / ODE求解器轨迹进行精细取样,DMs可以生成卓越的高质量结果。然而,这种精确取样通常需要多个步骤,计算成本很高。为了解决这个问题,已经提出了基于实例的蒸馏方法,通过让简单的学生模型模拟更复杂的教师模型来从DM中蒸馏出一步生成器。然而,我们的研究揭示了这些方法的固有局限性:教师模型具有更多的步骤和更多的参数,与学生模型相比占据不同的局部最小值,导致学生模型在尝试复制教师模型时表现不佳。为了避免这个问题,我们引入了一种新颖的分布式蒸馏方法,它使用独家的分布式损失。这种方法超越了最先进的结果,同时需要更少的训练图像。此外,我们展示了DM的层在不同的时间步骤中以不同的方式激活,从而具有在单个步骤中生成图像的固有能力。在分布式蒸馏过程中冻结大部分DM的卷积层会导致进一步的性能提高。我们的方法在CIFAR-10(FID 1.54),AFHQv2 64x64(FID 1.23),FFHQ 64x64(FID 0.85)和ImageNet 64x64(FID 1.16)上实现了最先进的结果,并具有很高的效率。这一突破不仅增强了高效图像生成模型的理解,而且为推进各种应用的最新技术提供了可扩展的框架。
  • 图表
  • 解决问题
    本文旨在解决Diffusion Models(DMs)在图像生成等领域中需要多步精确采样的计算负担问题,提出了一种基于分布式蒸馏的方法,通过使用独占分布式损失,从DM中提取出一步生成器,以更高效地生成高质量图像。
  • 关键思路
    本文提出的基于分布式蒸馏的方法通过独占分布式损失从DM中提取出一步生成器,以更高效地生成高质量图像。与现有的基于实例的蒸馏方法相比,该方法可以避免教师模型和学生模型之间的局部最小值问题,从而获得更好的性能。
  • 其它亮点
    本文提出的方法在CIFAR-10,AFHQv2 64x64,FFHQ 64x64和ImageNet 64x64等数据集上取得了SOTA的结果,且只使用了500万张训练图像和8个A100 GPU,训练时间仅为6小时。此外,本文还发现DM的层在不同的时间步骤中以不同的方式被激活,从而具有在单步中生成图像的内在能力。冻结大部分卷积层可以进一步提高性能。
  • 相关研究
    在图像生成领域,GAN和VAE是最常见的方法。最近,基于DM的图像生成方法已经取得了很大进展。在DM中,使用SDE/ODE求解器沿轨迹进行精确采样,以生成高质量图像。此外,基于实例的蒸馏方法也被提出来,但是会出现局部最小值问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论