3D-EffiViTCaps: 3D Efficient Vision Transformer with Capsule for Medical Image Segmentation

简介

医学图像分割（MIS）旨在细分各种器官。为了更好地进行分割，它需要从部分和整个图像中获取全局信息，并且在临床上通常有一定的分割效率要求。卷积神经网络（CNN）在MIS中取得了相当大的成就。然而，它们很难完全收集全局上下文信息，并且它们的池化层可能会导致信息丢失。胶囊网络将CNN的优点与考虑CNN不具备的相对位置等其他信息相结合，最近在MIS中表现出了一些优势。Vision Transformer（ViT）在视觉任务中使用transformers。基于注意力机制的transformer具有出色的全局归纳建模能力，并且预计能够捕获长程信息。此外，最近有研究使ViT更加轻量级，以最小化模型复杂性并提高效率。本文提出了一个名为3D-EffiViTCaps的U形3D编码器-解码器网络，它将3D胶囊块与3D EfficientViT块结合起来进行MIS。我们的编码器使用胶囊块和EfficientViT块来共同更有效、更高效地捕获局部和全局语义信息，同时减少信息损失，而解码器则采用CNN块和EfficientViT块来捕获更精细的细节以进行分割。我们在各种数据集上进行实验，包括iSeg-2017、海马体和心脏，以验证3D-EffiViTCaps的性能和效率，它表现比以前的基于3D CNN、3D胶囊和3D Transformer的模型更好。我们还对主要块进行了一系列消融实验。我们的代码可在以下网址找到：https://github.com/HidNeuron/3D-EffiViTCaps。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决医学图像分割中全局信息获取困难、信息丢失等问题，提出了一种结合3D胶囊块和3D EfficientViT块的U形3D编码器-解码器网络3D-EffiViTCaps，用于更有效、高效地进行医学图像分割。
关键思路

论文的关键思路是结合胶囊网络和Transformer网络的优点，提出一种结合局部和全局语义信息的3D编码器，同时在解码器中使用CNN块和EfficientViT块以获取更细节的分割信息。
其它亮点

论文在多个数据集上进行了实验，证明了3D-EffiViTCaps相比之前的3D CNN-based、3D Capsule-based和3D Transformer-based模型具有更好的性能和效率。此外，论文还进行了一系列消融实验，并提供了开源代码。
相关研究

最近在这个领域中，还有一些相关的研究，如EfficientNet、U-Net、Attention U-Net等。

3D-EffiViTCaps: 3D Efficient Vision Transformer with Capsule for Medical Image Segmentation

提问交流

提问交流