MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning

简介

快速发展的大规模视觉语言模型展示了在各种任务上的显著能力。然而，医学领域缺乏广泛且高质量的图像文本数据，这极大地阻碍了大规模医学视觉语言模型的发展。在这项工作中，我们提出了一种诊断引导的自举策略，利用图像和标签信息构建视觉语言数据集。基于构建的数据集，我们开发了MedDr，这是一个通用的基础健康模型，能够处理多种医疗数据模态，包括放射学、病理学、皮肤科、视网膜照相和内窥镜。此外，在推断过程中，我们提出了一种简单但有效的检索增强医学诊断策略，增强了模型的泛化能力。广泛的视觉问答、医学报告生成和医学图像诊断实验证明了我们方法的优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何解决医学领域中缺乏高质量图像-文本数据的问题，以促进医学视觉语言模型的发展？
关键思路

通过诊断引导的引导策略，利用图像和标签信息构建视觉语言数据集，并开发了能够处理医学数据多模态的通用基础模型MedDr。在推理过程中，提出了一种简单而有效的检索增强医学诊断策略，提高了模型的泛化能力。
其它亮点

实验表明，该方法在视觉问答、医学报告生成和医学图像诊断方面的表现优于其他方法。开源数据集和代码可供使用。
相关研究

与该领域的相关研究包括：《Clinically Applicable Deep Learning for Diagnosis and Referral in Retinal Disease》、《Deep Learning for Healthcare: Review, Opportunities and Challenges》等。

MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning

提问交流

提问交流