M$^4$oE: A Foundation Model for Medical Multimodal Image Segmentation with Mixture of Experts

简介

医学成像数据在不同模态和临床中心之间天然具有异质性，因此开发具有普适性的基础模型面临独特挑战。传统方法包括针对每个数据集训练不同模型或使用共享编码器和模态特定解码器。然而，这些方法需要大量计算资源，且不易扩展。为了解决这些限制，本文提出了医学多模态专家混合（M$^4$oE）框架，利用SwinUNet架构。具体而言，M$^4$oE包括模态特定专家，每个专家分别初始化以学习编码领域知识的特征。随后，在微调期间集成门控网络，以动态调节每个专家对集体预测的贡献。这提高了模型的可解释性和泛化能力，同时保留了专业化的专业知识。同时，M$^4$oE架构增强了模型的并行处理能力，并确保模型轻松适应新的模态。在三种模态的实验中，M$^4$oE在MICCAI FLARE22、AMOS2022和ATLAS2023数据集上分别比STU-Net-L高3.45％、MED3D高5.11％和SAM-Med2D高11.93％。此外，M$^4$oE在训练持续时间上显着缩短，比其他方法少7个小时，同时保持参数数量仅为其他方法的30％。代码可在https://github.com/JefferyJiang-YF/M4oE上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：如何在医学图像数据的异构性和多样性中开发出通用的基础模型？
关键思路

关键思路：提出了基于SwimUNet架构的Medical Multimodal Mixture of Experts（M$^4$oE）框架，结合门控网络动态调节每个专家的贡献，提高模型的解释性和泛化能力，同时增强模型的并行处理能力和适应新模态的能力。
其它亮点

其他亮点：实验结果表明，M$^4$oE在三个数据集上的表现均优于现有方法，且训练时间更短，参数更少。代码已开源。
相关研究

相关研究：文中提到了现有方法中的STU-Net-L、MED3D、SAM-Med2D。

M$^4$oE: A Foundation Model for Medical Multimodal Image Segmentation with Mixture of Experts

提问交流

提问交流