VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation

简介

在医学图像分割领域，基于CNN和Transformer的模型已经得到了深入研究。然而，CNN对于长程依赖的建模能力有限，使得充分利用图像中的语义信息变得具有挑战性。另一方面，Transformer的二次计算复杂度也带来了挑战。最近，状态空间模型（SSMs），如Mamba，被认为是一种有前途的方法。它们不仅在建模长程交互方面表现出优越性能，而且保持线性计算复杂度。受Mamba架构的启发，我们提出了Vision Mamba-UNetV2，引入了视觉状态空间（VSS）块来捕获广泛的上下文信息，引入了语义和细节注入（SDI）来增强低级和高级特征的注入。我们在ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB和ETIS-LaribPolypDB公共数据集上进行了全面的实验。结果表明，VM-UNetV2在医学图像分割任务中表现出了竞争性能。我们的代码可在https://github.com/nobodyplayer1/VM-UNetV2上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图解决医学图像分割中CNN和Transformer模型的局限性，提出了一种基于State Space Models的模型，旨在提高长程依赖建模能力并保持线性计算复杂度。
关键思路

论文提出了一种名为Vision Mamba-UNetV2的模型，引入了Visual State Space Block来捕捉广泛的上下文信息，引入了Semantics and Detail Infusion来增强低级和高级特征的融合。
其它亮点

论文在多个公共数据集上进行了全面的实验，结果表明VM-UNetV2在医学图像分割任务中表现出竞争性能。作者已经开源了代码。
相关研究

最近的相关研究包括基于CNN和Transformer的模型，但是它们都有其局限性。此外，还有一些基于State Space Models的研究，如Mamba。

VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation

提问交流

提问交流