- 简介在医学图像分割领域,基于CNN和Transformer的模型已经得到了深入研究。然而,CNN对于长程依赖的建模能力有限,使得充分利用图像中的语义信息变得具有挑战性。另一方面,Transformer的二次计算复杂度也带来了挑战。最近,状态空间模型(SSMs),如Mamba,被认为是一种有前途的方法。它们不仅在建模长程交互方面表现出优越性能,而且保持线性计算复杂度。受Mamba架构的启发,我们提出了Vision Mamba-UNetV2,引入了视觉状态空间(VSS)块来捕获广泛的上下文信息,引入了语义和细节注入(SDI)来增强低级和高级特征的注入。我们在ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB和ETIS-LaribPolypDB公共数据集上进行了全面的实验。结果表明,VM-UNetV2在医学图像分割任务中表现出了竞争性能。我们的代码可在https://github.com/nobodyplayer1/VM-UNetV2上获得。
-
- 图表
- 解决问题本论文试图解决医学图像分割中CNN和Transformer模型的局限性,提出了一种基于State Space Models的模型,旨在提高长程依赖建模能力并保持线性计算复杂度。
- 关键思路论文提出了一种名为Vision Mamba-UNetV2的模型,引入了Visual State Space Block来捕捉广泛的上下文信息,引入了Semantics and Detail Infusion来增强低级和高级特征的融合。
- 其它亮点论文在多个公共数据集上进行了全面的实验,结果表明VM-UNetV2在医学图像分割任务中表现出竞争性能。作者已经开源了代码。
- 最近的相关研究包括基于CNN和Transformer的模型,但是它们都有其局限性。此外,还有一些基于State Space Models的研究,如Mamba。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流