CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation

简介

由于遥感图像的大尺寸和目标变化，目前基于CNN和Transformer的遥感图像语义分割方法在捕捉长程依赖方面存在亟待优化之处，或者受限于复杂的计算复杂度。本文提出了CM-UNet，包括基于CNN的编码器用于提取局部图像特征和基于Mamba的解码器用于聚合和整合全局信息，从而实现遥感图像的高效语义分割。具体而言，引入了CSMamba块来构建核心分割解码器，该块采用通道和空间注意力作为vanilla Mamba的门激活条件，以增强特征交互和全局局部信息融合。此外，为了进一步优化CNN编码器的输出特征，采用了多尺度注意力聚合（MSAA）模块来合并不同尺度的特征。通过整合CSMamba块和MSAA模块，CM-UNet有效地捕捉了大尺度遥感图像的长程依赖和多尺度全局上下文信息。在三个基准测试上获得的实验结果表明，所提出的CM-UNet在各种性能指标上优于现有方法。代码可在https://github.com/XiaoBuL/CM-UNet获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决遥感图像语义分割中长距离依赖和多尺度全局信息融合的问题，提出了一种CM-UNet模型。
关键思路

CM-UNet模型由CNN编码器和基于Mamba的解码器组成。其中，解码器中引入了CSMamba块，利用通道和空间注意力增强特征交互和全局-局部信息融合。同时，还采用了多尺度注意力聚合模块（MSAA）来融合不同尺度的特征。
其它亮点

实验结果表明，CM-UNet模型在三个基准数据集上表现优于现有方法。代码已开源。
相关研究

最近的相关研究包括基于CNN和Transformer的遥感图像语义分割方法，如DeepLabv3+、UNet++等。

CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation

提问交流

提问交流