- 简介本文介绍了一种名为Diffusion Transformers (DiT)的图像和视频生成模型,但由于自注意力的二次复杂度,该模型面临计算挑战。作者提出了一种名为DiTFastAttn的新型后训练压缩方法,以缓解DiT的计算瓶颈。作者在DiT推理期间识别了注意力计算中的三个关键冗余:1. 空间冗余,即许多注意力头集中在局部信息上;2. 时间冗余,即相邻步骤的注意力输出之间存在高相似性;3. 条件冗余,即条件和无条件推理之间存在显著相似性。为了解决这些冗余,作者提出了三种技术:1. 带有残差缓存的窗口注意力,以减少空间冗余;2. 时间相似性降低,以利用步骤之间的相似性;3. 条件冗余消除,在条件生成期间跳过冗余计算。为了证明DiTFastAttn的有效性,作者将其应用于DiT、PixArt-Sigma进行图像生成任务,以及OpenSora进行视频生成任务。评估结果显示,对于图像生成,该方法可以减少高达88\%的FLOPs,并在高分辨率生成时实现高达1.6倍的加速。
-
- 图表
- 解决问题本论文旨在解决Diffusion Transformers (DiT)在图像和视频生成方面的计算瓶颈问题,通过提出DiTFastAttn方法来减轻这一问题。
- 关键思路DiTFastAttn方法包括三种技术:窗口注意力与残余缓存、时间相似性降低和条件冗余消除,以减少注意力计算中的空间、时间和条件冗余。
- 其它亮点实验结果表明,DiTFastAttn方法在图像生成方面可以减少高达88%的FLOPs,并实现高达1.6倍的速度提升。
- 在相关研究方面,最近的一些相关论文包括:《Image Transformer》、《Generative Models》、《Attention Is All You Need》等。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流