- 简介医学图像和视频的分割是精准医疗中的关键任务,近年来在开发针对2D图像的任务或模态特定模型以及通用模型方面取得了显著进展。然而,针对3D图像和视频构建通用模型的研究相对有限,尤其是结合全面用户研究的工作更为稀缺。在此,我们提出了MedSAM2,这是一款适用于3D图像和视频分割的可提示分割基础模型。该模型通过在包含超过45.5万对3D图像-掩码和7.6万帧的大规模医学数据集上微调Segment Anything Model 2而开发,其性能在多种器官、病灶和成像模态上均优于先前模型。此外,我们实现了一种人机协作管道,以促进大规模数据集的创建,并开展了迄今为止最大规模的用户研究(据我们所知),涉及5000个CT病灶、3984个肝部MRI病灶以及251,550帧心脏超声视频的标注,结果表明MedSAM2能够将人工成本降低超过85%。MedSAM2还被集成到广泛使用的平台上,配备了用户友好的界面,支持本地和云端部署,成为一款实用工具,能够在科研和医疗环境中助力高效、可扩展且高质量的分割任务。
- 图表
- 解决问题论文试图解决3D医学图像和视频分割领域中缺乏通用模型的问题,特别是针对大规模数据集和多模态任务的高效分割需求。这是一个尚未被充分研究的问题,尤其是在结合用户交互和大规模标注研究方面。
- 关键思路MedSAM2通过在Segment Anything Model 2(SAM2)的基础上进行微调,构建了一个适用于3D图像和视频分割的通用模型。该模型利用了超过455,000个3D图像-掩码对和76,000帧的大规模医疗数据集,并引入了人类在环(human-in-the-loop)的标注流程以优化性能和效率。相比现有的方法,MedSAM2能够显著减少手动标注成本,并支持多种器官、病变和成像模态的任务。
- 其它亮点1. MedSAM2进行了迄今为止最广泛的用户研究,涉及5,000个CT病变、3,984个肝MRI病变和251,550个超声心动图视频帧的标注;2. 模型在多个器官、病变和成像模态上表现出色,手动标注成本降低超过85%;3. 提供了友好的本地和云端部署接口,便于实际应用;4. 数据集和代码开源(假设),为未来研究提供了基础;5. 值得进一步探索的方向包括跨模态迁移学习和实时视频分割能力提升。
- 最近的相关研究包括:1. Segment Anything Model (SAM) 系列的工作,如SAM2,专注于通用分割任务;2. TransUNet 和 SwinUNet,分别将Transformer架构应用于医学图像分割;3. nnU-Net,一个自动化调参的医学图像分割框架;4. 3D U-Net及其变体,专门用于3D医学图像分割;5. 其他结合人类反馈的医学图像分割工作,例如Interactive Segmentation Networks。
沙发等你来抢
去评论
评论
沙发等你来抢