Swin SMT: Global Sequential Modeling in 3D Medical Image Segmentation

简介

最近，视觉Transformer(ViTs)的进步显著提高了医学图像分割的效果，因为它有助于学习全局关系。然而，这些方法在捕捉多样的局部和全局长距离序列特征表示方面面临着明显的挑战，尤其是在全身CT(WBCT)扫描中更为明显。为了克服这一限制，我们引入了Swin Soft混合Transformer(Swin SMT)，这是一种基于Swin UNETR的新型结构。该模型采用Soft MoE来有效处理复杂和多样的长距离依赖关系。使用Soft MoE可以在训练和推理模式下平衡计算复杂度和分割性能，从而扩展模型参数。我们在公开可用的TotalSegmentator-V2数据集上评估了Swin SMT，该数据集包括WBCT图像中的117个主要解剖结构。全面的实验结果表明，Swin SMT在三维解剖结构分割方面优于几种最先进的方法，平均Dice相似系数达到85.09%。Swin SMT的代码和预训练权重可在https://github.com/MI2DataLab/SwinSMT上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决医学图像分割中的全局关系学习问题，特别是在全身CT扫描中捕捉多样的局部和全局长距离序列特征表示的挑战。
关键思路

本文提出了一种基于Swin UNETR的新型架构Swin SMT，它采用Soft MoE来有效处理复杂和多样的长距离依赖关系。使用Soft MoE可以在训练和推理模式下保持模型参数的平衡，从而扩展模型参数。
其它亮点

实验使用了公开可用的TotalSegmentator-V2数据集，该数据集包括117个主要解剖结构。实验结果表明，Swin SMT在3D解剖结构分割方面优于多个最先进的方法，平均Dice相似系数达到85.09%。Swin SMT的代码和预训练权重在https://github.com/MI2DataLab/SwinSMT上公开。
相关研究

最近的相关研究包括ViT在医学图像分割中的应用，以及其他基于Transformer的方法，如UNet Transformer和UNet++ Transformer。

Swin SMT: Global Sequential Modeling in 3D Medical Image Segmentation

提问交流

提问交流