- 简介通过对 SDE/ODE 求解器定义的轨迹进行精细采样,DM(Diffusion Models)在图像生成和其他领域取得了巨大的成功。DM 可以生成出显著高质量的结果。然而,这种精确的采样通常需要多个步骤,计算成本高。为了解决这个问题,已经提出了基于实例的蒸馏方法,通过让一个更简单的学生模型模仿一个更复杂的教师模型,从 DM 中蒸馏出一个一步生成器。然而,我们的研究揭示了这些方法的固有局限性:教师模型具有更多的步骤和更多的参数,与学生模型占据不同的局部最小值,导致学生模型在尝试复制教师模型时表现不佳。为了避免这个问题,我们引入了一种新颖的分布式蒸馏方法,使用独占分布式损失。这种方法在需要更少的训练图像的情况下超越了最先进的结果。此外,我们展示了 DM 的层在不同的时间步骤上被不同地激活,导致天生具有在单步中生成图像的能力。在分布式蒸馏过程中冻结 DM 中的大多数卷积层可以发挥这种天生的能力,并带来进一步的性能提升。我们的方法在 CIFAR-10(FID 1.54)、AFHQv2 64x64(FID 1.23)、FFHQ 64x64(FID 0.85)和 ImageNet 64x64(FID 1.16)上实现了最先进的结果,并具有极高的效率。在 8 个 A100 GPU 上,仅使用 500 万张训练图像,在 6 小时内实现了大部分结果。
- 图表
- 解决问题本文旨在解决Diffusion Models(DMs)在图像生成等领域中需要进行多次采样的计算复杂度问题。同时,针对目前instance-based distillation方法的局限性,提出了一种基于分布式蒸馏的方法。
- 关键思路本文提出的分布式蒸馏方法使用独特的分布式损失函数,可以在较少的训练图像数和计算资源下,实现比SOTA更好的性能。同时,通过冻结DM中的大部分卷积层,可以进一步提高生成图像的效率。
- 其它亮点本文的实验结果表明,提出的分布式蒸馏方法在CIFAR-10、AFHQv2 64x64、FFHQ 64x64和ImageNet 64x64等数据集上均取得了SOTA的结果,其中大部分结果仅使用了500万张训练图像和8个A100 GPU,训练时间为6小时。此外,本文还发现DM的不同层在不同时间步骤中被不同地激活,具有天生的单步生成图像的能力。
- 与本文相关的研究包括Diffusion Models(DMs)和instance-based distillation方法。近期的相关研究包括《Score-Based Generative Modeling through Stochastic Differential Equations》和《Instance-Based Image-to-Image Translation》等。
沙发等你来抢
去评论
评论
沙发等你来抢