SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation

2024年04月15日
  • 简介
    采用基于Vision Transformers (ViTs)的架构在三维医学图像分割方面代表了重大进展,超越了传统的卷积神经网络(CNN)模型,通过增强全局上下文理解提高了性能。虽然这种范式转变显著提高了三维分割性能,但最先进的架构需要极其庞大和复杂的体系结构以及大规模的计算资源进行训练和部署。此外,在医学影像中经常遇到数据集有限的情况下,更大的模型可能在模型泛化和收敛方面存在障碍。为了应对这些挑战并证明轻量级模型在三维医学成像中是有价值的研究领域,我们提出了SegFormer3D,这是一种分层Transformer,可以在多尺度体积特征上计算注意力。此外,SegFormer3D避免了复杂的解码器,并使用全MLP解码器来聚合局部和全局注意特征,以产生高精度的分割掩模。所提出的内存高效Transformer在紧凑的设计中保留了显著更大模型的性能特征。SegFormer3D通过提供一个参数少33倍、GFLOPS减少13倍的模型,使深度学习在三维医学图像分割方面民主化。我们在三个广泛使用的数据集Synapse、BRaTs和ACDC上对SegFormer3D进行了基准测试,取得了竞争性的结果。代码:https://github.com/OSUPCVLab/SegFormer3D.git
  • 图表
  • 解决问题
    本文旨在解决在医学图像分割中,使用Vision Transformers (ViTs)架构需要大量计算资源和大规模数据集的问题,提出了一种轻量级的SegFormer3D模型。
  • 关键思路
    SegFormer3D是一种分层Transformer,可跨多尺度体积特征计算注意力。它使用全MLP解码器聚合局部和全局注意特征,以生成高精度分割掩模。该模型比当前SOTA模型的参数少33倍,GFLOPS降低13倍,但性能相当。
  • 其它亮点
    本文提出的SegFormer3D模型在三个广泛使用的数据集Synapse、BRaTs和ACDC上进行了基准测试,并取得了竞争性的结果。该模型的开源代码可在GitHub上获得。
  • 相关研究
    最近的相关研究包括: 1. 'Attention UNet: Learning Where to Look for the Pancreas'; 2. 'An Efficient Deep Learning Approach to Pneumonia Screening in Chest X-Ray Images'; 3. 'A Survey on Deep Learning in Medical Image Analysis'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论