- 简介医学图像的准确分割对于诊断非常重要,包括细胞分割、肿瘤识别和器官定位。传统的基于卷积神经网络(CNN)的方法由于其有限的感受野,在涉及形状和大小不同的多器官分割的情况下难以实现精确的分割结果。基于变压器的方法通过利用全局感受野来解决这个限制,但它们通常面临捕获像素精确分割所需的局部信息的挑战。在这项工作中,我们介绍了DwinFormer,一种用于医学图像分割的分层编码器-解码器架构,包括方向窗口(Dwin)注意力和全局自注意(GSA)进行特征编码。我们设计的重点是在DwinFormer中引入Dwin块,通过在输入特征图的水平、垂直和深度方向上分别执行注意力来有效地捕获局部和全局信息。为此,我们的Dwin块引入了嵌套Dwin注意力(NDA),逐步增加水平、垂直和深度方向上的感受野,以及卷积Dwin注意力(CDA),用于注意力计算中的局部上下文信息的捕获。虽然我们提出的Dwin块在DwinFormer的前两个高分辨率阶段捕获局部和全局依赖关系,但GSA块在最后两个低分辨率阶段编码全局依赖关系。在具有挑战性的3D Synapse多器官数据集和Cell HMS数据集上的实验表明,我们的DwinFormer比现有技术方法具有更好的性能。我们的源代码将公开在\url{https://github.com/Daniyanaj/DWINFORMER}。
- 图表
- 解决问题解决问题:本文旨在解决医学图像分割中卷积神经网络受限于感受野大小的问题,尤其是在多器官分割中效果不佳的问题。同时,该论文还试图解决transformer-based方法在像素级分割中捕捉局部信息的挑战。
- 关键思路关键思路:本文提出了一种分层编码器-解码器结构的DwinFormer,其中包括方向窗口(Dwin)注意力和全局自注意力(GSA)用于特征编码。Dwin block在DwinFormer的前两个高分辨率阶段有效地捕获局部和全局信息,通过在每个方向体积中分别执行注意力来实现对输入特征图的水平、垂直和深度方向的有效捕获。GSA block在后两个低分辨率阶段编码全局依赖关系。
- 其它亮点亮点:本文的亮点包括提出了DwinFormer模型,该模型在3D Synapse Multi-organ数据集和Cell HMS数据集上取得了优异的分割结果。Dwin block引入了嵌套Dwin注意力(NDA)和卷积Dwin注意力(CDA),分别捕获水平、垂直和深度方向上的局部上下文信息。GSA block在最后两个低分辨率阶段编码全局依赖关系。该论文的代码将公开发布在GitHub上。
- 相关研究:近期在这个领域中的相关研究包括U-Net、DeepLab、Mask R-CNN等。
沙发等你来抢
去评论
评论
沙发等你来抢