Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training

简介

这篇论文提到，自然图像和文本对的预训练视觉语言模型（VLM）在医学领域应用时存在领域转移问题，使得对其进行适应或微调存在很大的困难，包括领域不匹配、获取大规模数据集的难度和高类别不平衡等。因此，迫切需要一些策略来有效地将这些VLMs适应到医学领域，这样的适应将在医疗应用中具有巨大的价值。本研究提出了一个框架，旨在通过选择性采样和难负样本挖掘技术来有效地将VLMs调整到医学领域，以提高检索任务的性能。我们在两个不同的VLMs（MedCLIP和ALBEF）上实现了我们提出的方法，并使用包含乳腺X线照片及其对应报告的两个大型数据集，在原始状态和经过我们提出的训练策略后对这些模型的性能进行了评估，包括零样本、少样本和监督场景。通过我们的方法，我们观察到图像-文本检索任务的召回率@K性能有明显的提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何有效地将自然图像和文本的预训练模型（VLM）应用于医学领域中的图像文本检索任务？
关键思路

本文提出了一种框架，采用选择性采样和难负样本挖掘技术，以提高VLM在医学领域中的性能表现。
其它亮点

本文通过在两个不同的VLM上实现我们的方法，并使用包含乳腺X光和相应报告的两个大型数据集进行评估，验证了我们所提出的方法的有效性。实验结果表明，我们的方法在图像文本检索任务中可以显著提高Recall@K性能。
相关研究

最近在医学图像文本检索领域中，还有一些相关研究，例如《Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering》和《Multi-Task Deep Learning for Image and Text Matching》等。

Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training

提问交流

提问交流