ZigMa: A DiT-style Zigzag Mamba Diffusion Model

简介

这篇论文讨论了扩展模型的可扩展性和二次复杂度问题，特别是在基于变压器的结构中。研究旨在利用称为Mamba的状态空间模型的长序列建模能力，将其扩展到视觉数据生成领域。首先，研究人员发现了大多数当前基于Mamba的视觉方法中的一个关键问题，即在Mamba的扫描方案中缺乏对空间连续性的考虑。其次，基于这一发现，研究人员引入了一种名为Zigzag Mamba的简单、即插即用、零参数方法，该方法优于基于Mamba的基线，并且与基于变压器的基线相比，具有更好的速度和内存利用率。最后，研究人员将Zigzag Mamba与随机插值框架相结合，以研究模型在大分辨率视觉数据集上的可扩展性，例如FacesHQ $1024\times 1024$，UCF101，MultiModal-CelebA-HQ和MS COCO $256\times 256$。代码将在https://taohu.me/zigma/上发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在利用状态空间模型Mamba的长序列建模能力，扩展其在视觉数据生成方面的适用性，并解决扩展时遇到的可扩展性和二次复杂度问题。
关键思路

本文提出了一种名为Zigzag Mamba的简单、即插即用、零参数的方法，旨在解决当前Mamba视觉方法中的空间连续性问题，并在速度和内存利用方面优于基于Transformer的基线模型。
其它亮点

本文通过将Zigzag Mamba与随机插值框架相结合，研究了模型在大分辨率视觉数据集上的可扩展性，并在FacesHQ 1024×1024、UCF101、MultiModal-CelebA-HQ和MS COCO 256×256等数据集上进行了实验。代码将在https://taohu.me/zigma/上发布。
相关研究

最近的相关研究包括Transformer、GAN和VAE等模型在视觉数据生成方面的应用。

ZigMa: A DiT-style Zigzag Mamba Diffusion Model

提问交流

提问交流