ZigMa: A DiT-style Zigzag Mamba Diffusion Model

2024年03月20日
  • 简介
    这篇论文讨论了扩展模型的可扩展性和二次复杂度问题,特别是在基于变压器的结构中。研究旨在利用称为Mamba的状态空间模型的长序列建模能力,将其扩展到视觉数据生成领域。首先,研究人员发现了大多数当前基于Mamba的视觉方法中的一个关键问题,即在Mamba的扫描方案中缺乏对空间连续性的考虑。其次,基于这一发现,研究人员引入了一种名为Zigzag Mamba的简单、即插即用、零参数方法,该方法优于基于Mamba的基线,并且与基于变压器的基线相比,具有更好的速度和内存利用率。最后,研究人员将Zigzag Mamba与随机插值框架相结合,以研究模型在大分辨率视觉数据集上的可扩展性,例如FacesHQ $1024\times 1024$,UCF101,MultiModal-CelebA-HQ和MS COCO $256\times 256$。代码将在https://taohu.me/zigma/上发布。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在利用状态空间模型Mamba的长序列建模能力,扩展其在视觉数据生成方面的适用性,并解决扩展时遇到的可扩展性和二次复杂度问题。
  • 关键思路
    本文提出了一种名为Zigzag Mamba的简单、即插即用、零参数的方法,旨在解决当前Mamba视觉方法中的空间连续性问题,并在速度和内存利用方面优于基于Transformer的基线模型。
  • 其它亮点
    本文通过将Zigzag Mamba与随机插值框架相结合,研究了模型在大分辨率视觉数据集上的可扩展性,并在FacesHQ 1024×1024、UCF101、MultiModal-CelebA-HQ和MS COCO 256×256等数据集上进行了实验。代码将在https://taohu.me/zigma/上发布。
  • 相关研究
    最近的相关研究包括Transformer、GAN和VAE等模型在视觉数据生成方面的应用。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问