- 简介最近,在高保真图像生成方面的进展中,去噪扩散概率模型(DDPMs)已经成为一个关键角色。然而,它们在高分辨率下的应用面临着重大的计算挑战。目前的方法,如补丁化,在UNet和Transformer架构中加快了处理过程,但代价是降低了表示能力。为了解决这个问题,我们引入了扩散状态空间模型(DiffuSSM),这是一种用更可扩展的状态空间模型骨干代替注意机制的架构。这种方法有效地处理了更高的分辨率,而不需要全局压缩,从而在扩散过程中保留了详细的图像表示。我们专注于FLOP高效的扩散训练架构,这是一个重大的进步。在ImageNet和LSUN数据集上进行的全面评估,两种分辨率都表明,DiffuSSMs在FID和Inception Score指标上与现有的具有注意模块的扩散模型相当甚至更好,同时显著减少了总FLOP使用量。
- 图表
- 解决问题本篇论文旨在解决高分辨率图像生成中DDPM模型的计算挑战,即如何在保留图像细节的同时有效地处理高分辨率图像。
- 关键思路论文提出了一种名为DiffuSSM的新型架构,将注意力机制替换为更可扩展的状态空间模型骨干,有效地处理更高分辨率的图像,同时保留了详细的图像表示。
- 其它亮点论文在ImageNet和LSUN数据集上进行了全面的评估,证明了DiffuSSMs在FID和Inception Score指标上与具有注意力模块的现有扩散模型相当甚至更优,同时显著降低了总FLOP使用量。
- 与本文相关的研究包括:Patch-based UNet和Transformer架构中的加速方法,以及其他高保真图像生成模型,如StyleGAN2和BigGAN。
沙发等你来抢
去评论
评论
沙发等你来抢