Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images

2024年03月19日
  • 简介
    最近,大规模视觉-语言预训练模型的进展在自然图像领域的零/少样本异常检测方面取得了显著进展。然而,自然图像和医学图像之间的实质性领域差异限制了这些方法在医学异常检测中的有效性。本文介绍了一种新颖的轻量级多级适应和比较框架,以重新利用CLIP模型进行医学异常检测。我们的方法将多个残差适配器集成到预训练的视觉编码器中,实现了不同级别的视觉特征逐步增强。这种多级适应是由多级像素级视觉-语言特征对齐损失函数引导的,这些函数重新校准了模型的焦点,从自然图像的对象语义到医学图像的异常识别。经过调整的特征在各种医学数据类型中表现出改进的泛化能力,即使在训练期间模型遇到未见过的医学模态和解剖区域的零样本情况下也是如此。我们在医学异常检测基准测试上的实验表明,我们的方法明显优于当前最先进的模型,在零样本和少样本设置下,平均AUC提高了6.24%和7.33%用于异常分类,2.03%和2.37%用于异常分割。源代码可在以下网址找到:https://github.com/MediaBrain-SJTU/MVFA-AD
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决自然图像与医学图像之间的领域差异对医学异常检测的影响,提出了一种轻量级多级适应和比较框架,以重塑CLIP模型用于医学异常检测。
  • 关键思路
    论文的关键思路是将多个残差适配器集成到预训练的视觉编码器中,通过多级像素级视觉语言特征对齐损失函数引导多级适应,从而使模型的重点从自然图像的对象语义重新校准到医学图像的异常检测。
  • 其它亮点
    论文的实验结果表明,该方法显著优于当前最先进的模型,在零样本和少样本情况下平均AUC分别提高了6.24%和7.33%进行异常分类,2.03%和2.37%进行异常分割。作者提供了源代码。
  • 相关研究
    近期的相关研究包括:1.《Few-shot Learning with Contrastive Learning for Medical Image Segmentation》;2.《Few-Shot Learning for Medical Image Segmentation with Deep Learning》;3.《Few-Shot Learning for Medical Image Analysis: A Review》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问