Faster Diffusion: Rethinking the Role of UNet Encoder in Diffusion Models

2023年12月15日
  • 简介
    这篇论文中扩散模型的关键组成部分之一是用于噪声预测的UNet。虽然已经有几项研究探讨了UNet解码器的基本属性,但其编码器仍然未被深入研究。本文对UNet编码器进行了首次全面研究。我们通过实证分析编码器特征,提供了关于它们在推理过程中发生变化的重要问题的见解。特别是,我们发现编码器特征变化缓慢,而解码器特征在不同时间步骤之间存在显著变化。这一发现启发我们在某些相邻的时间步骤中省略编码器,并循环重用先前时间步骤中的编码器特征。基于这个观察结果,我们引入了一种简单而有效的编码器传播方案,以加速各种任务的扩散采样。通过受益于我们的传播方案,我们能够在某些相邻的时间步骤中并行执行解码器。此外,我们还引入了一种先验噪声注入方法,以提高生成图像的纹理细节。除了标准的文本到图像任务外,我们还在其他任务上验证了我们的方法:文本到视频、个性化生成和参考引导生成。在不使用任何知识蒸馏技术的情况下,我们的方法加速了稳定扩散(SD)和DeepFloyd-IF模型的采样分别达到41%和24%,同时保持高质量的生成性能。我们的代码可在\href{https://github.com/hutaiHang/Faster-Diffusion}{FasterDiffusion}上获得。
  • 图表
  • 解决问题
    本文试图解决的问题是对UNet编码器的全面研究,探究其特征变化规律,以及如何利用这些规律来加速扩散采样。
  • 关键思路
    本文的关键思路是通过对UNet编码器的特征变化规律的研究,提出了一种简单而有效的编码器传播方案,可以加速扩散采样,同时保持高质量的生成表现。
  • 其它亮点
    本文的亮点包括:对UNet编码器的全面研究;提出了一种简单而有效的编码器传播方案,可以加速扩散采样;提出了一种先验噪声注入方法,可以提高生成图像的纹理细节;在多个任务上验证了该方法的有效性,包括文本到图像、文本到视频、个性化生成和参考引导生成;在不使用任何知识蒸馏技术的情况下,加速了Stable Diffusion (SD)和DeepFloyd-IF模型的采样,分别提高了41%和24%的采样速度,同时保持高质量的生成表现。该方法的代码在Github上开源。
  • 相关研究
    在最近的研究中,也有一些关于扩散模型的研究,如Glow、DeepFloyd-IF等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论