Domain Influence in MRI Medical Image Segmentation: spatial versus k-space inputs

简介

基于Transformer的网络应用于图像块，在许多视觉任务中取得了最先进的性能。然而，它们缺乏卷积神经网络（CNN）对局部图像统计的内置偏差，因此需要大量数据集和修改才能捕捉块之间的关系，特别是在分割任务中。在频域中表示的图像可能更适合注意机制，因为局部特征在全局表示。通过将图像转换为频域，局部特征在全局表示。由于MRI数据采集特性，这些图像特别适合。本研究调查了图像域（空间或k空间）对深度学习（DL）模型分割结果的影响，重点关注基于MLP的注意力网络和其他非卷积模型。我们还研究了当输入图像在频域中时，Transformer-based网络是否需要额外的位置编码。为了评估，我们提出了一个颅骨去除任务和一个脑组织分割任务。使用的注意力模型是PerceiverIO和一个基本Transformer编码器。为了与非注意力模型进行比较，还训练和测试了一个MLP和ResMLP。结果与Swin-Unet进行比较，这是最先进的医学图像分割模型。实验结果表明，使用k空间作为输入域可以显着提高分割结果。此外，如果输入在频域中，则似乎不需要为基于注意力的网络添加额外的位置编码。尽管没有一个模型达到了Swin-Unet的性能，但较简单的模型通过选择不同的域显示出有希望的改进。
图表
解决问题

研究输入图像域（空间域或k空间）对于基于注意力机制的深度学习模型在医学图像分割任务中的影响，以及在频率域输入图像时，Transformer-based网络是否需要额外的位置编码。
关键思路

将图像转换到频率域可以全局表示局部特征，对于基于注意力机制的网络有利于提高分割结果。在频率域输入图像时，Transformer-based网络不需要额外的位置编码。
其它亮点

实验中使用了PerceiverIO、Transformer encoder、MLP和ResMLP等模型进行头骨去除和脑组织分割的任务。结果表明，在频率域输入图像时，使用k空间可以显著提高分割结果。实验结果对Swin-Unet这个目前领先的医学图像分割模型进行了比较。
相关研究

相关研究包括Swin-Unet等医学图像分割模型，以及Transformer-based网络在计算机视觉领域的应用等。

Domain Influence in MRI Medical Image Segmentation: spatial versus k-space inputs

评论