PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition

2024年03月26日
  • 简介
    我们提出了PlainMamba:一种简单的非分层状态空间模型(SSM),旨在用于通用视觉识别。最近的Mamba模型已经表明,在序列数据上,SSMs可以与其他架构竞争力很强,并且已经尝试将其应用于图像。在本文中,我们进一步将Mamba的选择性扫描过程调整到视觉领域,通过以下方式增强其从二维图像中学习特征的能力:(i)连续的2D扫描过程,通过确保扫描序列中令牌的邻近性来提高空间连续性,(ii)方向感知更新,使模型能够通过编码方向信息来区分令牌的空间关系。我们的架构旨在易于使用和易于扩展,由堆叠相同的PlainMamba块形成,从而产生在所有层中具有恒定宽度的模型。通过消除特殊令牌的需要,该架构进一步简化。我们在各种视觉识别任务上评估了PlainMamba,包括图像分类、语义分割、物体检测和实例分割。我们的方法在先前的非分层模型上实现了性能提升,并且与分层替代方案具有竞争力。特别是对于需要高分辨率输入的任务,PlainMamba需要更少的计算量,同时保持高性能。代码和模型可在https://github.com/ChenhongyiYang/PlainMamba获取。
  • 图表
  • 解决问题
    PlainMamba论文旨在解决通用视觉识别中的问题,通过提出一种简单的非层次化状态空间模型(SSM)来实现。
  • 关键思路
    PlainMamba模型通过改进Mamba模型的选择性扫描过程,实现了连续的二维扫描过程和方向感知更新,从而提高了对二维图像的特征学习能力。
  • 其它亮点
    论文在多项视觉识别任务中评估了PlainMamba模型的性能,包括图像分类、语义分割、目标检测和实例分割等,证明了其在非层次化模型中具有竞争力,并且在需要高分辨率输入的任务中表现出更高的效率。同时,作者还提供了代码和模型。
  • 相关研究
    在最近的相关研究中,有一些使用层次化模型的工作,如Mask R-CNN和U-Net。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论