- 简介最近,状态空间模型的进展,特别是Mamba,已经在语言理解等任务中展示了显著的进展。然而,它们在视觉任务中的应用并没有显着超过传统的卷积神经网络(CNN)和视觉Transformer(ViT)的性能。本文认为,提升Vision Mamba(ViM)的关键在于优化序列建模的扫描方向。传统的ViM方法将空间标记展平,忽略了保留局部2D依赖性,从而拉长了相邻标记之间的距离。我们引入了一种新颖的局部扫描策略,将图像分成不同的窗口,有效地捕获局部依赖性,同时保持全局视角。此外,我们提出了一种动态方法,以独立搜索每个层的最佳扫描选择,从而显著提高了性能。在纯粹和分层模型的广泛实验中,我们的方法在有效捕获图像表示方面表现出了优越性。例如,我们的模型在ImageNet上的性能比Vim-Ti高出3.1%,而FLOPs相同为1.5G。代码可在https://github.com/hunto/LocalMamba中获得。
-
- 图表
- 解决问题本文旨在提高Vision Mamba(ViM)在视觉任务中的表现,主要解决扫描方向对于序列建模的优化问题。是否是一个新问题尚不确定。
- 关键思路本文提出了一种新颖的本地扫描策略,将图像分成不同的窗口,以有效捕捉局部依赖关系,同时保持全局视角。此外,还提出了一种动态方法,独立搜索每个层的最佳扫描选择,从而显着提高了性能。
- 其它亮点实验结果表明,本文的方法在有效捕捉图像表示方面优于其他方法,例如,在ImageNet数据集上,与Vim-Ti相比,本文的模型性能提高了3.1%,且具有可重复性。作者已经公开了代码。
- 最近的相关研究包括Mamba、Convolutional Neural Networks(CNNs)和Vision Transformers(ViTs)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流