SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation

2024年04月15日
  • 简介
    采用基于Vision Transformers (ViTs)的架构代表了3D医学图像分割的重大进步,超越了传统的卷积神经网络(CNN)模型,增强了全局上下文理解。虽然这种范式转变显著提高了3D分割性能,但最先进的架构需要极其庞大和复杂的架构以及大规模的计算资源进行训练和部署。此外,在医学成像中经常遇到数据集有限的情况下,更大的模型可能会在模型泛化和收敛方面带来障碍。为了应对这些挑战,展示轻量级模型在3D医学成像中是一个有价值的研究领域,我们提出了SegFormer3D,这是一个分层变压器,可以在多尺度体积特征上计算注意力。此外,SegFormer3D避免了复杂的解码器,并使用全MLP解码器来聚合局部和全局注意力特征,以生成高度准确的分割掩模。所提出的内存高效变压器在紧凑的设计中保留了显著更大模型的性能特征。SegFormer3D通过提供一个参数少33倍,GFLOPS减少13倍的模型,使得深度学习在3D医学图像分割中更加民主化。我们在三个广泛使用的数据集Synapse、BRaTs和ACDC上对SegFormer3D进行了基准测试,取得了竞争性的结果。代码:https://github.com/OSUPCVLab/SegFormer3D.git。
  • 图表
  • 解决问题
    SegFormer3D试图解决3D医学图像分割中需要大型计算资源和复杂架构的问题,以及在有限数据集情况下,大型模型可能会遇到泛化和收敛困难的问题。
  • 关键思路
    SegFormer3D提出了一种基于Transformer的分层架构,通过计算多尺度体积特征之间的注意力来实现高度准确的分割掩模。同时,SegFormer3D避免了复杂的解码器,使用全MLP解码器来聚合局部和全局注意力特征,从而在紧凑的设计中保持了显著更大模型的性能特征。
  • 其它亮点
    SegFormer3D通过提供33倍少的参数和13倍减少的GFLOPS的模型,使得3D医学图像分割的深度学习变得更加平民化。论文在三个广泛使用的数据集Synapse、BRaTs和ACDC上进行了基准测试,并取得了竞争性的结果。此外,SegFormer3D提供了开源代码。
  • 相关研究
    在这个领域中最近的相关研究包括: 1. 'V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation' 2. '3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation' 3. 'Attention U-Net: Learning Where to Look for the Pancreas'
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论