DiTFastAttn: Attention Compression for Diffusion Transformer Models

简介

本文介绍了一种名为Diffusion Transformers (DiT)的图像和视频生成模型，但由于自注意力的二次复杂度，该模型面临计算挑战。作者提出了一种名为DiTFastAttn的新型后训练压缩方法，以缓解DiT的计算瓶颈。作者在DiT推理期间识别了注意力计算中的三个关键冗余：1. 空间冗余，即许多注意力头集中在局部信息上；2. 时间冗余，即相邻步骤的注意力输出之间存在高相似性；3. 条件冗余，即条件和无条件推理之间存在显著相似性。为了解决这些冗余，作者提出了三种技术：1. 带有残差缓存的窗口注意力，以减少空间冗余；2. 时间相似性降低，以利用步骤之间的相似性；3. 条件冗余消除，在条件生成期间跳过冗余计算。为了证明DiTFastAttn的有效性，作者将其应用于DiT、PixArt-Sigma进行图像生成任务，以及OpenSora进行视频生成任务。评估结果显示，对于图像生成，该方法可以减少高达88\%的FLOPs，并在高分辨率生成时实现高达1.6倍的加速。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决Diffusion Transformers (DiT)在图像和视频生成方面的计算瓶颈问题，通过提出DiTFastAttn方法来减轻这一问题。
关键思路

DiTFastAttn方法包括三种技术：窗口注意力与残余缓存、时间相似性降低和条件冗余消除，以减少注意力计算中的空间、时间和条件冗余。
其它亮点

实验结果表明，DiTFastAttn方法在图像生成方面可以减少高达88％的FLOPs，并实现高达1.6倍的速度提升。
相关研究

在相关研究方面，最近的一些相关论文包括：《Image Transformer》、《Generative Models》、《Attention Is All You Need》等。

DiTFastAttn: Attention Compression for Diffusion Transformer Models

提问交流

提问交流