Zero-Shot Medical Phrase Grounding with Off-the-shelf Diffusion Models

2024年04月19日
  • 简介
    在给定的医学扫描中定位确切的病理区域是一个重要的成像问题,需要大量的边界框地面实况注释才能准确解决。然而,存在替代的、潜在的、可能较弱的监督形式,例如伴随的自由文本报告,这些监督形式是readily available。利用文本指导执行定位任务通常被称为短语接地。在这项工作中,我们使用一个公开可用的基础模型,即潜在扩散模型,来解决这个具有挑战性的任务。这个选择得到支持,因为潜在扩散模型,尽管在本质上是生成模型,但包含机制(交叉关注)隐含地对齐视觉和文本特征,从而导致适合手头任务的中间表示。此外,我们的目标是以零-shot的方式执行这个任务,即在目标数据上没有进一步的训练,这意味着模型的权重保持冻结。为此,我们设计了选择特征并通过后处理对它们进行优化的策略,而不需要额外的可学习参数。我们将我们提出的方法与最先进的方法进行比较,这些方法通过对比学习在联合嵌入空间中明确地强制执行图像-文本对齐。在流行的胸部X射线基准测试上的结果表明,我们的方法在不同类型的病理方面与SOTA竞争,并且在两个指标(平均IoU和AUC-ROC)方面甚至优于它们。在接受后将发布源代码。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决医学图像中的病理区域定位问题,通过使用文本指导的短语定位方法,实现零样本学习。
  • 关键思路
    本文使用了潜在扩散模型,该模型通过交叉注意力机制隐式对齐视觉和文本特征,从而生成适用于短语定位的中间表示。同时,本文提出了一些策略来选择和精炼特征,以在不使用可学习参数的情况下实现零样本学习。
  • 其它亮点
    本文在流行的胸部X光基准测试上进行了实验,结果显示本文提出的方法在不同类型的病理方面与SOTA方法相当,并且在两个指标(平均IoU和AUC-ROC)方面甚至优于它们。此外,本文将公开源代码。
  • 相关研究
    最近的相关研究包括利用对比学习在联合嵌入空间中显式实现图像文本对齐的方法。例如:《End-to-End Learning for Joint Detection and Description of Local Features》、《Unsupervised Alignment of Actions in Video with Text Descriptions》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问