ZigMa: Zigzag Mamba Diffusion Model

2024年03月20日
  • 简介
    这个扩散模型长期以来一直受到可扩展性和二次复杂性问题的困扰,尤其是在基于变压器的结构中。在这项研究中,我们旨在利用称为Mamba的状态空间模型的长序列建模能力,将其应用于视觉数据生成。首先,我们确定了大多数当前基于Mamba的视觉方法中的一个关键疏忽,即在Mamba的扫描方案中缺乏对空间连续性的考虑。其次,基于这一洞察,我们引入了一种名为Zigzag Mamba的简单的即插即用、零参数方法,它优于基于Mamba的基线,并展示了比基于变压器的基线更好的速度和内存利用率。最后,我们将Zigzag Mamba与随机插值框架相结合,以研究模型在大分辨率视觉数据集(例如FacesHQ $1024\times 1024$和UCF101、MultiModal-CelebA-HQ和MS COCO $256\times 256$)上的可扩展性。代码将在https://taohu.me/zigma/上发布。
  • 图表
  • 解决问题
    论文试图通过使用State-Space Model called Mamba和Zigzag Mamba来扩展视觉数据生成的应用,解决扩展性和二次复杂度问题。
  • 关键思路
    论文中提出了一种新的方法Zigzag Mamba,通过考虑Mamba扫描方案中的空间连续性来解决当前Mamba-based视觉方法中的关键问题,Zigzag Mamba是一种零参数的插拔式方法,比transformer-based方法更快,更节省内存。
  • 其它亮点
    论文在大分辨率视觉数据集上进行了实验,包括FacesHQ 1024x1024,UCF101,MultiModal-CelebA-HQ和MS COCO 256x256,并将Zigzag Mamba与Stochastic Interpolant框架相结合,实验结果表明Zigzag Mamba优于Mamba-based基线和transformer-based基线,实验代码已经开源。
  • 相关研究
    近期的相关研究包括使用transformer-based模型进行视觉数据生成的研究,如DALL-E和CLIP。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论