Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography

2024年05月28日
  • 简介
    人工智能(AI)在器官分割和肿瘤检测方面的进展得益于计算机断层扫描(CT)数据集的不断增多,这些数据集具有详细的、基于体素的注释。然而,这些AI模型通常难以处理部分注释数据集的灵活性和新类别的可扩展性,这是由于one-hot编码、架构设计和学习方案的限制。为了克服这些限制,我们提出了一个通用的、可扩展的框架,使一个单一的模型,称为通用模型,能够处理多个公共数据集并适应新类别(例如器官/肿瘤)。首先,我们引入了一种新颖的基于语言的参数生成器,利用大型语言模型的语言嵌入,与one-hot编码相比,丰富了语义编码。其次,传统的输出层被轻量级、类别特定的头替换,使通用模型能够同时分割25个器官和6种类型的肿瘤,并便于添加新的类别。我们在14个公共数据集中组装了3,410个CT体积进行通用模型的训练,然后在来自四个外部数据集的6,173个CT体积上进行测试。通用模型在医学分割十项全能(MSD)公共排行榜上获得了六项CT任务的第一名,并在超越颅窝(BTCV)数据集上展现了领先的性能。总之,通用模型表现出了卓越的计算效率(比其他特定数据集的模型快6倍),在不同医院之间展现了强大的泛化能力,对许多下游任务具有良好的迁移能力,更重要的是,它促进了对新类别的可扩展性,同时缓解了先前学习类别的灾难性遗忘。代码、模型和数据集可在https://github.com/ljwztc/CLIP-Driven-Universal-Model获得。
  • 图表
  • 解决问题
    本论文旨在解决医学图像分割中,针对部分标注数据集和新类别的识别能力不足的问题。
  • 关键思路
    该论文提出了一种通用的、可扩展的框架,使用语言嵌入和轻量级的类特定头部替代传统的输出层,使得模型能够同时分割25个器官和6种肿瘤,并且易于添加新的类别。
  • 其它亮点
    论文在14个公共数据集上训练模型,并在4个外部数据集上进行了测试,结果表明该模型在医学图像分割竞赛中表现优异。此外,该模型具有计算效率高、泛化能力强、易于扩展等特点,并提供了开源代码和数据集。
  • 相关研究
    该领域的相关研究包括使用深度学习进行医学图像分割、使用多模态数据进行分割等。其中的一些论文包括“U-Net: Convolutional Networks for Biomedical Image Segmentation”和“Multi-Modal Brain Tumor Segmentation Using Deep Neural Networks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论