Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation

2024年05月24日
  • 简介
    最近的发展显示,以其选择性状态空间方法而闻名的Mamba架构在高效建模长序列方面表现出潜力。然而,它在图像生成方面的应用尚未得到充分探索。传统的扩散变压器(DiT)利用自注意块是有效的,但其计算复杂度随着输入长度的平方级增长,限制了它们在高分辨率图像方面的使用。为了解决这个挑战,我们引入了一种新颖的扩散架构——Diffusion Mamba (DiM),它放弃了传统的注意机制,采用可扩展的替代方案。通过利用Mamba架构的固有效率,DiM实现了快速推理时间和降低的计算负载,保持了相对于序列长度的线性复杂度。我们的架构不仅有效地扩展,而且在图像和视频生成任务中也优于现有的扩散变压器。结果证实了DiM的可扩展性和效率,为图像和视频生成技术建立了一个新的基准。这项工作推进了生成模型领域,并为可扩展架构的进一步应用铺平了道路。
  • 图表
  • 解决问题
    论文旨在解决图像生成中传统扩散变压器(DiT)的计算复杂性随输入长度呈平方级增长的问题,提出一种基于Mamba架构的扩散架构(DiM)来实现线性复杂度,同时保持高效率和可扩展性。
  • 关键思路
    DiM架构放弃传统的自注意力机制,采用可扩展的替代方案,利用Mamba架构的效率,实现快速推理时间和降低计算负载。DiM不仅有效地扩展,而且在图像和视频生成任务中优于现有的扩散变压器。
  • 其它亮点
    论文提出的DiM架构不仅保持高效率和可扩展性,而且在图像和视频生成任务中表现出色。实验使用了多个数据集,并且开源了代码。该工作为可扩展架构在生成模型领域的应用提供了新的思路。
  • 相关研究
    最近的相关研究包括:1)扩散变压器在图像生成中的应用;2)利用Mamba架构的可扩展生成模型;3)自注意力机制的替代方案。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论