Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model

2024年04月02日
  • 简介
    高分辨率遥感图像对于常用的语义分割方法,如卷积神经网络(CNN)和视觉Transformer(ViT)构成了挑战。由于其有限的感受野,基于CNN的方法难以处理这样的高分辨率图像,而ViT在处理长序列时也面临着挑战。受Mamba的启发,Mamba采用状态空间模型(SSM)来有效地捕捉全局语义信息,我们提出了一种用于高分辨率遥感图像的语义分割框架,称为Samba。Samba采用编码器-解码器架构,其中Samba块作为编码器,用于高效的多级语义信息提取,而UperNet则作为解码器。我们在LoveDA、ISPRS Vaihingen和ISPRS Potsdam数据集上评估了Samba,将其性能与表现最佳的CNN和ViT方法进行了比较。结果表明,Samba在常用的遥感数据集上实现了无与伦比的语义分割性能。我们提出的Samba首次展示了SSM在遥感图像语义分割中的有效性,在该特定应用中为基于Mamba技术的技术设定了一个新的性能基准。源代码和基准实现可在https://github.com/zhuqinfeng1999/Samba上获得。
  • 图表
  • 解决问题
    本论文旨在解决高分辨率遥感图像语义分割中CNN和ViT等方法的局限性,并提出了一种新的语义分割框架Samba。
  • 关键思路
    Samba框架采用编码器-解码器结构,其中Samba块作为编码器,用于高效的多级语义信息提取,UperNet作为解码器。同时,该框架引入了状态空间模型(SSM)来捕捉全局语义信息。
  • 其它亮点
    Samba在LoveDA、ISPRS Vaihingen和ISPRS Potsdam数据集上进行了评估,并与CNN和ViT等方法进行了比较。结果表明,Samba在遥感图像语义分割方面具有优异的性能,并且SSM的引入使其在该领域中具有新的突破。论文提供了源代码和基准实现。
  • 相关研究
    在该领域中,最近的相关研究包括Mamba和其他基于CNN和ViT的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论