H-vmunet: High-order Vision Mamba UNet for Medical Image Segmentation

简介

在医学图像分割领域，基于卷积神经网络（CNN）和视觉Transformer（ViT）作为基本模块的变体模型已经得到广泛开发和应用。然而，CNN在处理长序列信息时常常受到限制，而ViT对局部特征信息的敏感度较低，二次计算复杂度的问题也限制了它们的发展。最近，状态空间模型（SSMs），特别是2D选择扫描（SS2D），的出现对传统的CNN和ViT作为视觉神经网络基础模块的长期统治产生了影响。本文通过提出一种高阶视觉曼巴UNet（H-vmunet）来扩展SS2D的适应性，用于医学图像分割。其中，所提出的高阶2D选择扫描（H-SS2D）通过更高阶的交互逐步减少了SS2D操作中冗余信息的引入。此外，所提出的局部SS2D模块提高了SS2D在每个交互阶段的局部特征学习能力。我们在三个公开可用的医学图像数据集（ISIC2017、脾脏和CVC-ClinicDB）上进行了比较和消融实验，结果都表明了H-vmunet在医学图像分割任务中的强大竞争力。代码可从https://github.com/wurenkai/H-vmunet获取。
图表
解决问题

本论文旨在解决医学图像分割中CNN和ViT模型存在的局限性，提出了一种基于2D-selective-scan的高阶视觉Mamba UNet（H-vmunet）模型。
关键思路

本文提出了高阶2D-selective-scan（H-SS2D）和Local-SS2D模块，通过高阶交互逐步减少冗余信息的引入，提高SS2D的适应性和学习局部特征的能力。
其它亮点

论文使用ISIC2017、Spleen和CVC-ClinicDB三个公共数据集进行对比和消融实验，结果表明H-vmunet在医学图像分割任务中具有较强的竞争力。论文提供了开源代码。
相关研究

当前医学图像分割领域，基于CNN和ViT模型的变种模型已经得到广泛应用。最近，基于状态空间模型的研究成果也开始崭露头角，例如本文中的2D-selective-scan。

H-vmunet: High-order Vision Mamba UNet for Medical Image Segmentation

评论