- 简介这个扩散模型长期以来一直受到可扩展性和二次复杂性问题的困扰,尤其是在基于变压器的结构中。在这项研究中,我们旨在利用称为Mamba的状态空间模型的长序列建模能力,将其应用于视觉数据生成。首先,我们确定了大多数当前基于Mamba的视觉方法中的一个关键疏忽,即在Mamba的扫描方案中缺乏对空间连续性的考虑。其次,基于这一洞察,我们引入了一种名为Zigzag Mamba的简单的即插即用、零参数方法,它优于基于Mamba的基线,并展示了比基于变压器的基线更好的速度和内存利用率。最后,我们将Zigzag Mamba与随机插值框架相结合,以研究模型在大分辨率视觉数据集(例如FacesHQ $1024\times 1024$和UCF101、MultiModal-CelebA-HQ和MS COCO $256\times 256$)上的可扩展性。代码将在https://taohu.me/zigma/上发布。
- 图表
- 解决问题论文试图通过使用State-Space Model called Mamba和Zigzag Mamba来扩展视觉数据生成的应用,解决扩展性和二次复杂度问题。
- 关键思路论文中提出了一种新的方法Zigzag Mamba,通过考虑Mamba扫描方案中的空间连续性来解决当前Mamba-based视觉方法中的关键问题,Zigzag Mamba是一种零参数的插拔式方法,比transformer-based方法更快,更节省内存。
- 其它亮点论文在大分辨率视觉数据集上进行了实验,包括FacesHQ 1024x1024,UCF101,MultiModal-CelebA-HQ和MS COCO 256x256,并将Zigzag Mamba与Stochastic Interpolant框架相结合,实验结果表明Zigzag Mamba优于Mamba-based基线和transformer-based基线,实验代码已经开源。
- 近期的相关研究包括使用transformer-based模型进行视觉数据生成的研究,如DALL-E和CLIP。
沙发等你来抢
去评论
评论
沙发等你来抢