Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

2025年02月03日
  • 简介
    扩散变压器(Diffusion Transformers,简称DiTs)在视频生成领域占据主导地位,但其高昂的计算成本严重限制了实际应用。即使在高性能GPU上,生成几秒钟的视频通常也需要数十分钟。这种低效主要源于3D全注意力机制(3D Full Attention)相对于上下文长度的二次计算复杂度。在本文中,我们提出了一种无需训练的框架,称为稀疏视频生成器(Sparse VideoGen,简称SVG),该框架利用了3D全注意力机制中的固有稀疏性来提高推理效率。 我们发现,注意力头可以根据不同的稀疏模式动态地分为两类:(1) 空间头(Spatial Head),其中每个帧内仅空间相关的标记对注意力输出起主导作用;(2) 时间头(Temporal Head),其中不同帧之间仅时间相关的标记对注意力输出起主导作用。基于这一见解,SVG提出了一种在线分析策略,以捕捉动态稀疏模式并预测注意力头的类型。结合一种新颖的硬件高效的张量布局转换和定制的内核实现,SVG在CogVideoX-v1.5和HunyuanVideo上分别实现了最高达2.28倍和2.33倍的整体加速,同时保持了生成质量。
  • 图表
  • 解决问题
    该论文试图解决扩散变换器(DiTs)在视频生成中的高计算成本问题,特别是3D全注意力机制的二次计算复杂度对上下文长度的影响。这导致即使在高性能GPU上,生成几秒钟的视频也需要数十分钟的时间。这是一个亟待解决的问题,以提高视频生成技术的实际应用性。
  • 关键思路
    论文提出了一种无需训练的框架——Sparse VideoGen (SVG),通过利用3D全注意力机制中的固有稀疏性来提升推理效率。关键思路是将注意力头动态分类为两种类型:空间头(Spatial Head)和时间头(Temporal Head),并基于此提出在线配置策略以捕捉动态稀疏模式。此外,SVG结合了硬件高效的张量布局转换和定制内核实现,从而显著提升了处理速度。
  • 其它亮点
    1. 提出了一个新颖的、无需训练的框架SVG,通过识别和利用注意力头的稀疏模式,实现了更高效的视频生成。 2. 实验结果表明,在CogVideoX-v1.5和HunyuanVideo数据集上分别达到了2.28倍和2.33倍的整体加速,同时保持了生成质量。 3. 研究团队开源了代码,方便后续研究者进行复现和改进。 4. 未来可以进一步探索如何优化不同类型的注意力头,以及将该方法应用于其他模态的数据生成任务中。
  • 相关研究
    最近在这个领域中,还有一些相关的研究值得关注,例如: - 'Efficient Diffusion Models for Accelerating Video Generation',探讨了通过模型架构优化减少计算开销的方法。 - 'Adaptive Sparse Attention for Efficient Video Synthesis',提出了自适应稀疏注意力机制以提高视频合成效率。 - 'Faster Video Generation with Hardware-Aware Neural Networks',研究了如何根据硬件特性设计神经网络以加快视频生成速度。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论