- 简介这篇论文讨论了扩展模型的可扩展性和二次复杂度问题,特别是在基于变压器的结构中。研究旨在利用称为Mamba的状态空间模型的长序列建模能力,将其扩展到视觉数据生成领域。首先,研究人员发现了大多数当前基于Mamba的视觉方法中的一个关键问题,即在Mamba的扫描方案中缺乏对空间连续性的考虑。其次,基于这一发现,研究人员引入了一种名为Zigzag Mamba的简单、即插即用、零参数方法,该方法优于基于Mamba的基线,并且与基于变压器的基线相比,具有更好的速度和内存利用率。最后,研究人员将Zigzag Mamba与随机插值框架相结合,以研究模型在大分辨率视觉数据集上的可扩展性,例如FacesHQ $1024\times 1024$,UCF101,MultiModal-CelebA-HQ和MS COCO $256\times 256$。代码将在https://taohu.me/zigma/上发布。
-
- 图表
- 解决问题本文旨在利用状态空间模型Mamba的长序列建模能力,扩展其在视觉数据生成方面的适用性,并解决扩展时遇到的可扩展性和二次复杂度问题。
- 关键思路本文提出了一种名为Zigzag Mamba的简单、即插即用、零参数的方法,旨在解决当前Mamba视觉方法中的空间连续性问题,并在速度和内存利用方面优于基于Transformer的基线模型。
- 其它亮点本文通过将Zigzag Mamba与随机插值框架相结合,研究了模型在大分辨率视觉数据集上的可扩展性,并在FacesHQ 1024×1024、UCF101、MultiModal-CelebA-HQ和MS COCO 256×256等数据集上进行了实验。代码将在https://taohu.me/zigma/上发布。
- 最近的相关研究包括Transformer、GAN和VAE等模型在视觉数据生成方面的应用。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流