Mammo-CLIP: Leveraging Contrastive Language-Image Pre-training (CLIP) for Enhanced Breast Cancer Diagnosis with Multi-view Mammography

2024年04月24日
  • 简介
    尽管从多个乳腺X线摄影视图中融合信息对于提高乳腺癌检测的准确性起着重要作用,但是开发基于多视图乳腺X线摄影的计算机辅助诊断(CAD)方案仍然面临挑战,并且尚未有这样的CAD方案在临床实践中使用。为了克服这些挑战,我们研究了一种基于对比语言-图像预训练(CLIP)的新方法,该方法在各种医学影像任务中引起了兴趣。通过解决(1)有效地将单视图CLIP适应于多视图特征融合和(2)在有限的样本和计算资源下高效地微调这个参数密集型模型的挑战,我们引入了Mammo-CLIP,这是第一个处理多视图乳腺X线摄影和相应简单文本的多模态框架。Mammo-CLIP使用早期特征融合策略来学习从左右乳房的CC和MLO视图获取的四幅乳腺X线摄影的多视图关系。为了增强学习效率,将插拔式适配器添加到CLIP图像和文本编码器中,以微调参数并将更新限制在约1%的参数范围内。为了评估框架,我们回顾性地组装了两个数据集。第一个数据集包括470个恶性和479个良性病例,用于少量样本微调和通过5倍交叉验证内部评估所提出的Mammo-CLIP。第二个数据集包括60个恶性和294个良性病例,用于测试Mammo-CLIP的泛化能力。研究结果表明,Mammo-CLIP在两个数据集上的AUC(0.841 vs. 0.817, 0.837 vs. 0.807)均优于最先进的跨视图变压器。它还超过了先前两个基于CLIP的方法的20.3%和14.3%。本研究突出了微调的视觉语言模型在开发基于图像和文本的下一代CAD方案中的潜力。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在开发一种基于多视角乳腺X线照片和简单文本的计算机辅助诊断(CAD)框架,以提高乳腺癌检测的准确性。
  • 关键思路
    论文提出了一种基于对比语言-图像预训练(CLIP)的方法,通过早期特征融合策略学习左右乳房的CC和MLO视图的四个乳腺X线照片之间的多视角关系。通过添加插入式适配器来优化CLIP图像和文本编码器的参数,限制参数更新为1%,从而提高了学习效率。
  • 其它亮点
    本文提出的Mammo-CLIP框架在两个数据集上的表现均优于现有的跨视图变压器和之前的两个基于CLIP的方法。该研究强调了微调视觉-语言模型以开发基于图像-文本的CAD方案的潜力。
  • 相关研究
    最近的相关研究包括使用CLIP进行医学图像分类和检测的研究,以及使用深度学习技术进行乳腺癌检测的其他研究,如使用卷积神经网络(CNN)和循环神经网络(RNN)的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问