LocalMamba: Visual State Space Model with Windowed Selective Scan

简介

最近，状态空间模型的进展，特别是Mamba，已经在语言理解等任务中展示了显著的进展。然而，它们在视觉任务中的应用并没有显着超过传统的卷积神经网络（CNN）和视觉Transformer（ViT）的性能。本文认为，提升Vision Mamba（ViM）的关键在于优化序列建模的扫描方向。传统的ViM方法将空间标记展平，忽略了保留局部2D依赖性，从而拉长了相邻标记之间的距离。我们引入了一种新颖的局部扫描策略，将图像分成不同的窗口，有效地捕获局部依赖性，同时保持全局视角。此外，我们提出了一种动态方法，以独立搜索每个层的最佳扫描选择，从而显著提高了性能。在纯粹和分层模型的广泛实验中，我们的方法在有效捕获图像表示方面表现出了优越性。例如，我们的模型在ImageNet上的性能比Vim-Ti高出3.1％，而FLOPs相同为1.5G。代码可在https://github.com/hunto/LocalMamba中获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提高Vision Mamba（ViM）在视觉任务中的表现，主要解决扫描方向对于序列建模的优化问题。是否是一个新问题尚不确定。
关键思路

本文提出了一种新颖的本地扫描策略，将图像分成不同的窗口，以有效捕捉局部依赖关系，同时保持全局视角。此外，还提出了一种动态方法，独立搜索每个层的最佳扫描选择，从而显着提高了性能。
其它亮点

实验结果表明，本文的方法在有效捕捉图像表示方面优于其他方法，例如，在ImageNet数据集上，与Vim-Ti相比，本文的模型性能提高了3.1％，且具有可重复性。作者已经公开了代码。
相关研究

最近的相关研究包括Mamba、Convolutional Neural Networks（CNNs）和Vision Transformers（ViTs）等。

LocalMamba: Visual State Space Model with Windowed Selective Scan

提问交流

提问交流