MambaVision: A Hybrid Mamba-Transformer Vision Backbone

2024年07月10日
  • 简介
    我们提出了一种新颖的混合Mamba-Transformer骨干网络,称为MambaVision,专门为视觉应用而设计。我们的核心贡献包括重新设计Mamba的公式,以增强其对视觉特征进行高效建模的能力。此外,我们对将Vision Transformers(ViT)与Mamba集成的可行性进行了全面的剖析研究。我们的结果表明,在最后几层中为Mamba架构配备几个自注意块,可以极大地提高建模能力,以捕捉长距离的空间依赖关系。基于我们的发现,我们引入了一系列具有分层结构的MambaVision模型,以满足各种设计标准。对于ImageNet-1K数据集上的图像分类,MambaVision模型变体在Top-1准确率和图像吞吐量方面实现了新的最先进(SOTA)性能。在MS COCO和ADE20K数据集上进行的目标检测、实例分割和语义分割等下游任务中,MambaVision胜过了大小相当的骨干网络,并展现出更有利的性能。代码:https://github.com/NVlabs/MambaVision。
  • 图表
  • 解决问题
    论文旨在解决视觉应用中的建模问题,并验证将Vision Transformers与Mamba结合的可行性。
  • 关键思路
    通过重新设计Mamba的架构和在最终层增加自注意力块,提高了Mamba模型对视觉特征的建模能力,并将其与Vision Transformers相结合,形成了MambaVision模型。
  • 其它亮点
    论文提出的MambaVision模型在ImageNet-1K数据集上取得了新的最优性能,并在MS COCO和ADE20K数据集上的目标检测、实例分割和语义分割任务中表现出更好的性能。论文开源了代码。
  • 相关研究
    最近的相关研究包括ViT、Mamba和各种视觉任务上的模型优化。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论