Diffusion Models Without Attention

简介

最近，在高保真图像生成方面的进展中，去噪扩散概率模型（DDPMs）已经成为一个关键角色。然而，它们在高分辨率下的应用面临着重大的计算挑战。目前的方法，如补丁化，在UNet和Transformer架构中加快了处理过程，但代价是降低了表示能力。为了解决这个问题，我们引入了扩散状态空间模型（DiffuSSM），这是一种用更可扩展的状态空间模型骨干代替注意机制的架构。这种方法有效地处理了更高的分辨率，而不需要全局压缩，从而在扩散过程中保留了详细的图像表示。我们专注于FLOP高效的扩散训练架构，这是一个重大的进步。在ImageNet和LSUN数据集上进行的全面评估，两种分辨率都表明，DiffuSSMs在FID和Inception Score指标上与现有的具有注意模块的扩散模型相当甚至更好，同时显著减少了总FLOP使用量。
图表
解决问题

本篇论文旨在解决高分辨率图像生成中DDPM模型的计算挑战，即如何在保留图像细节的同时有效地处理高分辨率图像。
关键思路

论文提出了一种名为DiffuSSM的新型架构，将注意力机制替换为更可扩展的状态空间模型骨干，有效地处理更高分辨率的图像，同时保留了详细的图像表示。
其它亮点

论文在ImageNet和LSUN数据集上进行了全面的评估，证明了DiffuSSMs在FID和Inception Score指标上与具有注意力模块的现有扩散模型相当甚至更优，同时显著降低了总FLOP使用量。
相关研究

与本文相关的研究包括：Patch-based UNet和Transformer架构中的加速方法，以及其他高保真图像生成模型，如StyleGAN2和BigGAN。

Diffusion Models Without Attention

评论