A Survey on Visual Mamba

2024年04月24日
  • 简介
    最近,具有选择机制和硬件感知架构的状态空间模型(SSMs),即Mamba,在长序列建模方面表现出显著的潜力。由于变形金刚中的自注意机制具有随着图像大小的增加而呈二次复杂度和不断增加的计算需求,研究人员正在探索如何将Mamba适应计算机视觉任务。本文是第一篇旨在提供对Mamba模型在计算机视觉领域进行深入分析的综合性调查。它首先探讨了为Mamba的成功做出贡献的基本概念,包括状态空间模型框架、选择机制和硬件感知设计。接下来,我们通过将它们分类为基础模型并使用卷积、循环和注意力等技术来增强它们的复杂性,来回顾这些视觉Mamba模型。我们进一步深入探讨了Mamba在视觉任务中的广泛应用,其中包括它们在各种视觉处理级别中作为骨干的使用。这包括一般的视觉任务、医学视觉任务(例如2D/3D分割、分类和图像配准等)和遥感视觉任务。我们特别介绍了两个级别的一般视觉任务:高/中级视觉(例如目标检测、分割、视频分类等)和低级视觉(例如图像超分辨率、图像恢复、视觉生成等)。我们希望这个努力能在社区内激发更多的兴趣,以解决当前的挑战并进一步将Mamba模型应用于计算机视觉。
  • 图表
  • 解决问题
    本文旨在深入分析Mamba模型在计算机视觉领域中的应用,特别是如何适应计算机视觉任务中的自注意力机制的问题。
  • 关键思路
    本文介绍了Mamba模型的基础概念,包括状态空间模型框架、选择机制和硬件感知设计,并将其应用于计算机视觉任务中。同时,通过将传统的计算机视觉技术与Mamba模型相结合,进一步提高了模型的复杂性和性能。
  • 其它亮点
    本文对Mamba模型在计算机视觉领域中的应用进行了全面的调查和总结,包括其在不同层次的视觉处理中的应用,如高/中级视觉和低级视觉。此外,还介绍了Mamba模型在一些具体视觉任务中的应用,如医学图像分割、遥感图像处理等。本文的实验设计详细,使用了多个数据集,具有较高的参考价值。
  • 相关研究
    最近在该领域中的相关研究包括:《Vision Transformers: Token-based Image Representation and Processing for Computer Vision》、《An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论