AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation

简介

在过去几十年中，深度神经网络，特别是卷积神经网络，在各种医学图像分割任务中取得了最先进的表现。最近，引入视觉变换器（ViT）显着改变了深度分割模型的格局。由于其出色的性能和可扩展性，ViT受到越来越多的关注。然而，我们认为基于视觉变换器的UNet（ViT-UNet）分割模型的当前设计可能无法有效处理医学图像分割任务中感兴趣的对象外观的异质性（例如，不同的形状和大小）。为了解决这个挑战，我们提出了一种结构化的方法，将空间动态组件引入ViT-UNet。这种适应性使模型能够有效地捕捉具有多样外观的目标对象的特征。这是通过三个主要组件实现的：\textbf{(i)} 可变形补丁嵌入；\textbf{(ii)} 空间动态多头注意力；\textbf{(iii)} 可变形位置编码。这些组件被集成到一种新的架构中，称为AgileFormer。AgileFormer是一种专为医学图像分割而设计的具有空间灵活性的ViT-UNet。使用公开可用的数据集进行的三个分割任务的实验证明了所提出方法的有效性。代码可在\href{https://github.com/sotiraslab/AgileFormer}{https://github.com/sotiraslab/AgileFormer}上获得。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

本文旨在解决医学图像分割中目标外观多样性的问题，提出了一种适用于医学图像分割的空间敏捷ViT-UNet模型。

关键思路

本文提出了三个组成部分：可变形补丁嵌入、空间动态多头注意力和可变形位置编码，将其集成到新的架构AgileFormer中，实现了对目标多样化外观的特征提取。

其它亮点

本文在三个医学图像分割任务中进行了实验，并展示了所提出方法的有效性。代码已开源。

AgileFormer: Spatially Agile Transformer UNet for Medical Image Segmentation

提问交流

提问交流