Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation

2024年06月04日
  • 简介
    本文提出了一种高效、快速、通用的蒸馏方法,名为Flash Diffusion,用于加速预训练扩散模型的生成。该方法在COCO2014和COCO2017数据集上进行少量步骤的图像生成,达到了FID和CLIP-Score的最新性能水平,而且只需要几个GPU小时的训练和比现有方法更少的可训练参数。除了高效性外,该方法的通用性还体现在多个任务上,如文本到图像、修补、脸部交换、超分辨率以及使用不同的骨干网络,如基于UNet的去噪器(SD1.5、SDXL)或DiT(Pixart-$\alpha$)以及适配器。在所有情况下,该方法都能够显著减少采样步骤,同时保持非常高质量的图像生成。官方实现可在https://github.com/gojasper/flash-diffusion中获得。
  • 图表
  • 解决问题
    本论文旨在提出一种高效、快速、通用的蒸馏方法——Flash Diffusion,以加速预训练扩散模型的生成。论文试图解决的问题是如何在保持高质量图像生成的同时,降低采样步骤的数量和训练时间。
  • 关键思路
    论文提出的Flash Diffusion方法可以在COCO2014和COCO2017数据集上实现少量采样步骤下的高质量图像生成,同时比现有方法需要更少的GPU训练时间和可训练参数。该方法的关键思路是将蒸馏方法应用于扩散模型的训练中,同时使用不同的后骨干和适配器来实现通用性。
  • 其它亮点
    论文实验使用了COCO2014和COCO2017数据集,并在多个任务中展示了Flash Diffusion的通用性,如文本到图像、修复、人脸交换、超分辨率等。此外,论文还提供了官方实现和开源代码。
  • 相关研究
    近期在这个领域中,还有一些相关的研究,如《Improved Denoising Diffusion Probabilistic Models》、《Adaptive Diffusion for Image Denoising》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论