- 简介除了在医学图像生成方面提供最先进的性能外,去噪扩散概率模型(DPM)还可以作为表示学习器来捕捉语义信息,并有可能用作下游任务的图像表示,例如分割。然而,这些潜在的语义表示在很大程度上依赖于费时的像素级注释作为监督,限制了DPM在医学图像分割中的可用性。为了解决这个限制,我们提出了一种增强的扩散分割模型,称为TextDiff,通过廉价的医学文本注释提高语义表示,从而明确建立扩散模型的语义表示和语言对应关系。具体而言,TextDiff从预训练的扩散模型在大规模自然图像上的反向扩散过程的马尔可夫步骤中提取中间激活,并通过与补充的易于获取的诊断文本信息相结合来学习额外的专家知识。TextDiff冻结了双分支多模态结构,并通过仅训练交叉注意机制和像素分类器来挖掘扩散模型中语义特征的潜在对齐,从而使得使用廉价文本增强语义表示成为可能。在公共QaTa-COVID19和MoNuSeg数据集上进行的大量实验表明,我们的TextDiff仅使用少量训练样本就显著优于最先进的多模态分割方法。
- 图表
- 解决问题本文旨在通过廉价的医学文本注释来提高DPM的语义表示能力,以解决DPM在医学图像分割中需要大量像素级注释的问题。
- 关键思路本文提出了一种增强的扩散分割模型TextDiff,通过冻结双分支多模态结构并仅训练交叉注意机制和像素分类器,从而在扩散模型中挖掘语义特征的潜在对齐,并结合与之配套的诊断文本信息学习额外的专家知识,从而实现通过廉价的医学文本注释来提高语义表示。
- 其它亮点实验结果表明,TextDiff在公共数据集QaTa-COVID19和MoNuSeg上的表现显著优于最先进的多模态分割方法,仅需少量训练样本。
- 近期的相关研究包括:Multi-Modal Medical Image Segmentation via Knowledge Distillation from Experts和A Hybrid Multi-Modal Framework for Medical Image Segmentation with Improved Adversarial Learning等。
沙发等你来抢
去评论
评论
沙发等你来抢