高效捕获多尺度局部信息并在像素间建立长程依赖关系对于医学图像分割至关重要,因为病变区域或器官的尺寸和形状多种多样。南开大学程明明教授团队提出了多尺度交叉轴注意力(MCA)机制,通过增强的轴向注意力来解决这些挑战,文章第一作者为南开大学博士生邵昊、通讯作者为南开大学副教授侯淇彬。为了解决由小数据集引起的轴向注意力中位置偏置学习不充分和长距离交互有限的问题,文章提出使用双重交叉注意力机制代替轴向注意力来增强全局信息捕获。同时,为了弥补轴向注意力中对局部信息显式关注的不足,研究者们在每条轴向注意力路径中使用具有不同卷积核大小的多个条带状卷积核进行卷积,这提高了MCA在局部信息编码中的效率。通过将MCA集成到多尺度交叉轴注意力网络(MSCAN)主干中,文章开发了网络架构---MCANet。MCANet仅具有4M+的参数,但在四个具有挑战性的任务上超越了先前的大型方法(例如,基于swin transformer的方法):皮肤病变分割、细胞核分割、腹部多器官分割和息肉分割。

代码获取地址:

https://github.com/haoshao-nku/medical_seg

图片来自Springer

全文下载:

MCANet: Medical Image Segmentation with Multi-scale Cross-axis Attention

Hao Shao, Quansheng Zeng, Qibin Hou & Jufeng Yang

https://link.springer.com/article/10.1007/s11633-025-1552-6

https://www.mi-research.net/article/doi/10.1007/s11633-025-1552-6

 

全文导读

医学图像分割是医学图像处理和计算机视觉中一个关键且具有挑战性的研究问题。该任务侧重于勾画医学图像中具有临床意义的区域,为临床诊断、病理学研究奠定可靠基础,并最终支持临床医生做出精确评估。它在临床诊断、计算机辅助手术、病理分析等医学领域有广泛应用。在过去的十年中,深度学习的快速发展使得基于神经网络的方法成为医学图像分割的主导范式。这些工作主要基于卷积神经网络(CNNs)。特别是,U-Net及其变体近年来取得了显著成功。它们的成功可归功于编码器-解码器架构,其中残差连接可以有效地将编码器在不同尺度上提取的特征与解码器提取的语义特征结合起来。然而,感受野有限的局限性阻止了卷积在像素间建立长距离依赖关系,而这已被证明是至关重要的,特别是对于分割类任务。

 

作为分割中CNN的替代方案,视觉Transformer (Vision Transformers) 最近引起了广泛关注。由于Transformer可以建立长程依赖关系,许多工作也将其引入医学图像分割任务。例如,TransUNet吸收了ViT和U-Net的优点来设计新网络。随后的工作,如PMTrans、TransBTS和UNet Transformers (UNETR),也针对医学图像分割提出了不同类型的Transformer。这些方法极大地改进了先前CNN的性能,并在许多基准测试中获得了最先进的结果。

 

尽管基于Transformer的方法取得了良好效果,但它们仍然存在缺陷。首先,Transformer平等对待所有元素,这可能导致忽略局部重要特征。然而,医学图像中的局部信息对于精确分割至关重要,因为器官和病变通常集中在特定区域。此外,当与小数据集结合使用时,学习位置偏置变得低效,使得长距离交互具有挑战性,并阻碍了对空间结构的捕获。尽管替代方法(如轴向注意力)消耗资源较少,但它们仍然忽略了局部信息。因此,这些方法在小型数据集上训练时无法解决学习位置偏置的挑战。

 

在本文中,为了解决上述问题,研究者们提出了一种多尺度交叉轴注意力(MCA)解码器。他们从两个方面改进了轴向注意力的设计,以更好地适应医学图像分割任务。首先,为了减轻局部信息损失,使用不同大小的条带状卷积核将多尺度局部特征引入每条轴向注意力路径。这使得解码器能够更好地定位目标区域并捕获局部细节。此外,为了解决学习位置偏置的困难,研究者们在水平和垂直轴向注意力之间创建了双重交互,而不是依次在水平和垂直维度上计算轴向注意力。与先前的方法相比,这种解码器非常轻量,参数少于100万,使其更适用于临床诊断的实际应用。

 

将MCA解码器连接到MSCAN主干网络构成了本文的网络,命名为MCANet。如图1所示,本文提出的方法以较低的计算复杂度,在一系列广泛使用的基准数据集上取得了最佳结果,包括皮肤病变分割、细胞核分割、腹部多器官分割和息肉分割。

 

总之,本文的贡献可以总结如下:

1) 提出了多尺度交叉轴注意力(MCA),它能够在不引入太多计算复杂度的同时捕获长程依赖关系并编码多尺度局部信息。

2) 在MCA的基础上设计了MCANet,它实现了卓越的分割性能。设计这样的网络对于适应医学成像从实验室转向床边的趋势至关重要。

3) 在四个典型任务上的实验表明,MCANet以更少的参数和更低的计算成本优于先前的最先进方法。

 

图1 MCANet与主流方法在四个任务上的性能和FLOPs对比。本文的小型模型在所有任务上均实现了最先进的性能,包括皮肤病变分割、细胞核分割、腹部多器官分割和息肉分割,同时计算效率更高。

 

本文作者

全文下载:

MCANet: Medical Image Segmentation with Multi-scale Cross-axis Attention

Hao Shao, Quansheng Zeng, Qibin Hou & Jufeng Yang

https://link.springer.com/article/10.1007/s11633-025-1552-6

https://www.mi-research.net/article/doi/10.1007/s11633-025-1552-6

BibTex:

@Article {MIR-2024-05-138,

author={Hao Shao, Quansheng Zeng, Qibin Hou, Jufeng Yang },

journal={Machine Intelligence Research},

title={MCANet: Medical Image Segmentation with Multi-scale Cross-axis Attention},

year={2025},

volume={22},

issue={3},

pages={437-451},

doi={10.1007/s11633-025-1552-6}}

 

特别感谢本文第一作者、南开大学邵昊博士,以及本文通讯作者、南开大学侯淇彬副教授对以上内容的审阅和修改!

 

关于Machine Intelligence Research

Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录,入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区,最佳排名挺进Top 4%,2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4,位列人工智能及自动化&控制系统两个领域JCR Q1区;2025年发布的最新影响因子达8.7,继续跻身JCR Q1区,最佳排名进入全球第6名;2025年一举进入中科院期刊分区表计算机科学二区。

 

往期目录
2025年第4期 | 特约专题: 具身智能
2025年第3期 | 大语言模型、医学图像分割、图像阴影去除、写作风格变化检测......
2025年第2期 | 常识知识获取、图因子分解机、横向联邦学习、分层强化学习...
2025年第1期 | 机器视觉、机器人、神经网络、反事实学习、小样本信息网络...
2024年第6期 | 图神经网络,卷积神经网络,生物识别技术...
2024年第5期 | 大语言模型,无人系统,统一分类与拒识...
2024年第4期 | 特约专题: 多模态表征学习
2024年第3期 | 分布式深度强化学习,知识图谱,推荐系统,3D视觉,联邦学习...
2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...
2024年第1期 | 特约专题: AI for Art
2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...
2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)
2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......
2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习... 
2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调
2023年第1期 | 类脑智能机器人、联邦学习、视觉-语言预训练、伪装目标检测... 

 

 

好文推荐
自动化所吴书 等 | GraphFM: 用于特征交互建模的图因子分解机
香港理工大学周立培团队等 | 综述: 面向以物体为中心的机器人操作的具身学习
清华大学朱军团队 | DPM-Solver++:用于扩散概率模型引导采样的快速求解器
南航张道强团队 | 综述:基于脑电信号与机器学习的注意力检测研究
可信图神经网络的全面综述:隐私性、鲁棒性、公平性和可解释性
哈工大江俊君团队 | SCNet:利用全1X1卷积实现轻量图像超分辨率
下载量TOP好文 | 人工智能领域高下载文章集锦(2023-2024年)
自动化所刘成林团队 | 统一分类与拒识: 一种一对多框架
上海交大张拳石团队 | 综述: 基于博弈交互理论的神经网络可解释性研究
专题好文 | 再思考人群计数中的全局上下文
专题好文 | Luc Van Gool团队: 基于分层注意力的视觉Transformer
浙江大学孔祥维团队 | 综述: 迈向真正以人为本的XAI
澳大利亚国立大学Nick Barnes团队 | 对息肉分割的再思考: 从分布外视角展开
前沿观点 | Segment Anything并非一直完美: SAM模型在不同真实场景中的应用调查
精选好文 | 推荐系统的波纹知识图谱卷积网络
复旦邱锡鹏团队 | MOSS: 一个开源的对话式大语言模型
自动化所黄凯奇团队 | 分布式深度强化学习:综述与多玩家多智能体学习工具箱
约翰霍普金斯大学Alan Yuille团队 | 从时序和高维数据中定位肿瘤的弱标注方法
专题综述 | 大语言模型中的知识生命周期
精选综述 | 零信任架构的自动化和编排: 潜在解决方案与挑战
欧洲科学院院士蒋田仔团队 | 脑成像数据的多模态融合: 方法与应用
金耀初团队&郑锋团队 | 综述: 深度工业图像异常检测
专题好文 | 创新视听内容的联合创作: 计算机艺术面临的新挑战
综述 | 清华张学工教授: 肺癌影像组学中的机器学习
哈工大江俊君团队 | DepthFormer: 利用长程关联和局部信息进行精确的单目深度估计
Luc Van Gool团队 | 通过Swin-Conv-UNet和数据合成实现实用图像盲去噪
贺威团队&王耀南院士团队 | 基于动态运动基元的机器人技能学习
乔红院士团队 | 类脑智能机器人:理论分析与系统应用 (机器智能研究MIR)
南科大于仕琪团队 | YuNet:一个速度为毫秒级的人脸检测器
上海交大严骏驰团队 | 综述: 求解布尔可满足性问题(SAT)的机器学习方法
西电公茂果团队 | 综述: 多模态数据的联邦学习
高文院士团队 | 综述: 大规模多模态预训练模型
前沿观点 | 谷歌BARD的视觉理解能力如何?对开放挑战的实证研究
港中文黄锦辉团队 | 综述: 任务型对话对话策略学习的强化学习方法
南航张道强教授团队 | 综述:用于脑影像基因组学的机器学习方法
ETHZ团队 | 一种基于深度梯度学习的高效伪装目标检测方法 (机器智能研究MIR)

 

 

MIR资讯
影响因子全球第6名!MIR稳步进军世界一流期刊行列
挺进Q1区前10名!MIR首个影响因子发布
喜报 | MIR 首次入选中科院期刊分区表计算机科学类二区
2025年 AI领域国际学术会议参考列表
致谢审稿人 | Machine Intelligence Research
MIR 2024年度优秀编委名单
喜报!MIR入选中国科技期刊卓越行动计划二期项目
特别提醒!请认准MIR官方渠道,谨防受骗
前进20名!MIR再度跻身国际影响力TOP期刊榜单
喜报 | MIR入选图像图形领域 T2级 “知名期刊”!
喜报 | MIR被 ESCI 收录!
喜报 | MIR 被 EI 与 Scopus 数据库收录

内容中包含的图片若涉及版权问题,请及时与我们联系删除