- 简介最近,带有选择机制和硬件感知架构的状态空间模型(SSMs),即Mamba,已经展示了在长序列建模方面的显著优势。由于变压器中的自注意机制随着图像大小的增加而具有二次复杂度和不断增加的计算需求,研究人员现在正在探索如何将Mamba适应于计算机视觉任务。本文是第一篇旨在提供对Mamba模型在计算机视觉领域进行深入分析的综合性调查报告。它首先探讨了对Mamba成功做出贡献的基础概念,包括状态空间模型框架、选择机制和硬件感知设计。接下来,我们通过将它们分为基础模型和使用卷积、循环和注意力等技术来提高它们的复杂性的模型来回顾这些视觉Mamba模型。我们进一步深入探讨了Mamba在视觉任务中的广泛应用,包括它们在各种视觉处理级别中作为骨干的使用。这包括一般的视觉任务、医学视觉任务(例如2D/3D分割、分类和图像配准等)和遥感视觉任务。我们特别介绍了两个层面的一般视觉任务:高/中级视觉(例如目标检测、分割、视频分类等)和低级视觉(例如图像超分辨率、图像恢复、视觉生成等)。我们希望这个努力将激发社区内的额外兴趣,以解决当前的挑战并进一步应用Mamba模型在计算机视觉中。
- 图表
- 解决问题本论文旨在探讨如何将Mamba模型应用于计算机视觉任务,以解决自注意力机制在transformers中随着图像大小而呈二次复杂度增长和计算需求增加的问题。
- 关键思路本文首次全面调查了Mamba模型在计算机视觉领域的应用,通过将Mamba模型与卷积、循环和注意力等技术相结合,将其分为基础模型和增强模型,并进一步研究了Mamba在计算机视觉中的广泛应用。
- 其它亮点本文介绍了Mamba模型在计算机视觉中的应用,包括高/中级视觉和低级视觉任务,以及医学视觉和遥感视觉任务。此外,本文还探讨了Mamba模型在各种视觉处理级别中的应用,如目标检测、分割、视频分类、图像超分辨率、图像恢复和视觉生成等。本文的实验使用了哪些数据集并且提供了开源代码。
- 最近的相关研究包括使用transformers进行计算机视觉任务的研究,如ViT和DeiT。
沙发等你来抢
去评论
评论
沙发等你来抢