- 简介基于Transformer的网络应用于图像块,在许多视觉任务中取得了最先进的性能。然而,它们缺乏卷积神经网络(CNN)对局部图像统计的内置偏差,因此需要大量数据集和修改才能捕捉块之间的关系,特别是在分割任务中。在频域中表示的图像可能更适合注意机制,因为局部特征在全局表示。通过将图像转换为频域,局部特征在全局表示。由于MRI数据采集特性,这些图像特别适合。本研究调查了图像域(空间或k空间)对深度学习(DL)模型分割结果的影响,重点关注基于MLP的注意力网络和其他非卷积模型。我们还研究了当输入图像在频域中时,Transformer-based网络是否需要额外的位置编码。为了评估,我们提出了一个颅骨去除任务和一个脑组织分割任务。使用的注意力模型是PerceiverIO和一个基本Transformer编码器。为了与非注意力模型进行比较,还训练和测试了一个MLP和ResMLP。结果与Swin-Unet进行比较,这是最先进的医学图像分割模型。实验结果表明,使用k空间作为输入域可以显着提高分割结果。此外,如果输入在频域中,则似乎不需要为基于注意力的网络添加额外的位置编码。尽管没有一个模型达到了Swin-Unet的性能,但较简单的模型通过选择不同的域显示出有希望的改进。
- 图表
- 解决问题研究输入图像域(空间域或k空间)对于基于注意力机制的深度学习模型在医学图像分割任务中的影响,以及在频率域输入图像时,Transformer-based网络是否需要额外的位置编码。
- 关键思路将图像转换到频率域可以全局表示局部特征,对于基于注意力机制的网络有利于提高分割结果。在频率域输入图像时,Transformer-based网络不需要额外的位置编码。
- 其它亮点实验中使用了PerceiverIO、Transformer encoder、MLP和ResMLP等模型进行头骨去除和脑组织分割的任务。结果表明,在频率域输入图像时,使用k空间可以显著提高分割结果。实验结果对Swin-Unet这个目前领先的医学图像分割模型进行了比较。
- 相关研究包括Swin-Unet等医学图像分割模型,以及Transformer-based网络在计算机视觉领域的应用等。
沙发等你来抢
去评论
评论
沙发等你来抢