One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts

简介

本研究旨在构建一个可以通过文本提示在医学场景下分割任何物体的模型，称为SAT。我们的主要贡献有三个方面：（i）在数据构建方面，我们结合多种知识源构建了一个多模态医学知识树。然后，我们通过收集超过11K 3D医学图像扫描数据集，并对视觉扫描和标签空间进行了精心的标准化，构建了一个大规模的分割数据集进行训练；（ii）在模型训练方面，我们制定了一个通用的分割模型，可以通过输入文本形式的医学术语进行提示。我们提出了一个知识增强的表示学习框架，并采用一系列策略有效地训练了大量数据集的组合；（iii）在模型评估方面，我们使用仅有107M参数的SAT-Nano，通过文本提示对31个不同的分割数据集进行分割，共得到362个类别。我们从三个方面对模型进行了全面评估：按身体区域平均、按类别平均和按数据集平均，结果表明与36个专家nnUNet的性能相当。即，我们在每个数据集/子集上训练nnUNet模型，为31个数据集生成了36个nnUNet，每个模型参数约为1000M。我们将发布本报告中使用的所有代码和模型，即SAT-Nano。此外，我们将在不久的将来提供SAT-Ultra，它是使用更大型的模型，在更多样化的数据集上进行训练的。网页链接：https://zhaoziheng.github.io/MedUniSeg。
图表
解决问题

SAT论文试图解决的问题是在医疗场景下，通过文本提示来进行任何物体的分割，即SAT。这是否是一个新问题？
关键思路

论文提出了一种通用的分割模型，可以通过输入文本形式的医学术语进行提示。该模型使用知识增强的表示学习框架和一系列策略进行有效的训练，以在大量数据集的组合上进行训练。该模型的核心思想是将多个知识源结合起来构建多模态医学知识树，从而实现医学图像分割。
其它亮点

论文的亮点包括：（1）使用多个知识源构建多模态医学知识树，从而构建大规模的分割数据集；（2）提出了一种通用的分割模型，可以通过输入文本形式的医学术语进行提示，并使用知识增强的表示学习框架和一系列策略进行有效的训练；（3）在31个分割数据集中训练SAT-Nano模型，结果有362个类别，从三个方面对模型进行了全面评估，表现与36个专家级nnUNet相当；（4）论文提供了所有代码和模型，并在不久的将来提供SAT-Ultra，该模型使用更大的模型大小在更多不同的数据集上进行训练。
相关研究

最近在这个领域中，有一些相关的研究，例如：“3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation”和“nnU-Net: Self-adapting Framework for U-Net-Based Medical Image Segmentation”。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论