LocalMamba: Visual State Space Model with Windowed Selective Scan

2024年03月14日
  • 简介
    最近,状态空间模型的进展,特别是Mamba,已经在语言理解等任务中展示了显著的进展。然而,它们在视觉任务中的应用并没有显着超过传统的卷积神经网络(CNN)和视觉Transformer(ViT)的性能。本文认为,提升Vision Mamba(ViM)的关键在于优化序列建模的扫描方向。传统的ViM方法将空间标记展平,忽略了保留局部2D依赖性,从而拉长了相邻标记之间的距离。我们引入了一种新颖的局部扫描策略,将图像分成不同的窗口,有效地捕获局部依赖性,同时保持全局视角。此外,我们提出了一种动态方法,以独立搜索每个层的最佳扫描选择,从而显著提高了性能。在纯粹和分层模型的广泛实验中,我们的方法在有效捕获图像表示方面表现出了优越性。例如,我们的模型在ImageNet上的性能比Vim-Ti高出3.1%,而FLOPs相同为1.5G。代码可在https://github.com/hunto/LocalMamba中获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提高Vision Mamba(ViM)在视觉任务中的表现,主要解决扫描方向对于序列建模的优化问题。是否是一个新问题尚不确定。
  • 关键思路
    本文提出了一种新颖的本地扫描策略,将图像分成不同的窗口,以有效捕捉局部依赖关系,同时保持全局视角。此外,还提出了一种动态方法,独立搜索每个层的最佳扫描选择,从而显着提高了性能。
  • 其它亮点
    实验结果表明,本文的方法在有效捕捉图像表示方面优于其他方法,例如,在ImageNet数据集上,与Vim-Ti相比,本文的模型性能提高了3.1%,且具有可重复性。作者已经公开了代码。
  • 相关研究
    最近的相关研究包括Mamba、Convolutional Neural Networks(CNNs)和Vision Transformers(ViTs)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问