Clockwork Diffusion: Efficient Generation With Model-Step Distillation

2023年12月13日
  • 简介
    这项工作旨在提高文本到图像扩散模型的效率。尽管扩散模型在每个生成步骤中都使用计算成本高昂的基于UNet的去噪操作,但我们发现并非所有操作对于最终输出质量同等重要。特别是,我们观察到在高分辨率特征图上操作的UNet层相对较为敏感,容易受到小干扰的影响。相比之下,低分辨率特征图影响最终图像的语义布局,通常可以在不影响输出的情况下进行干扰。基于这个观察结果,我们提出了Clockwork Diffusion方法,该方法周期性地重复利用前面去噪步骤的计算结果来近似后续一个或多个步骤的低分辨率特征图。针对多个基线和文本到图像生成以及图像编辑,我们证明了Clockwork可以在大大降低计算复杂度的同时实现可比或更好的感知得分。例如,对于具有8个DPM++步骤的Stable Diffusion v1.5,我们节省了32%的FLOPs,而FID和CLIP的变化可以忽略不计。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提高文本到图像扩散模型的效率。通过观察发现,不是所有的UNet操作对最终输出质量都同等重要。高分辨率特征图上的UNet层相对较为敏感,而低分辨率特征图影响最终图像的语义布局,即使在没有明显变化的情况下也经常会受到干扰。因此,论文提出了Clockwork Diffusion方法,周期性地重复利用先前去噪步骤的计算结果来近似低分辨率特征图。该方法在多个基线模型和文本到图像生成和图像编辑任务中,均可实现与或更好的感知得分,同时大大降低了计算复杂度。
  • 关键思路
    论文提出了Clockwork Diffusion方法,周期性地重复利用先前去噪步骤的计算结果来近似低分辨率特征图,以提高文本到图像扩散模型的效率。
  • 其它亮点
    论文通过实验验证了Clockwork Diffusion方法的有效性,该方法可以在降低计算复杂度的同时,实现与或更好的感知得分。论文使用了多个数据集,并提供了开源代码。
  • 相关研究
    近期的相关研究包括:1)UNet模型在图像去噪中的应用;2)文本到图像生成模型的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问