MedDr: Diagnosis-Guided Bootstrapping for Large-Scale Medical Vision-Language Learning

2024年04月23日
  • 简介
    快速发展的大规模视觉语言模型展示了在各种任务上的显著能力。然而,医学领域缺乏广泛且高质量的图像文本数据,这极大地阻碍了大规模医学视觉语言模型的发展。在这项工作中,我们提出了一种诊断引导的自举策略,利用图像和标签信息构建视觉语言数据集。基于构建的数据集,我们开发了MedDr,这是一个通用的基础健康模型,能够处理多种医疗数据模态,包括放射学、病理学、皮肤科、视网膜照相和内窥镜。此外,在推断过程中,我们提出了一种简单但有效的检索增强医学诊断策略,增强了模型的泛化能力。广泛的视觉问答、医学报告生成和医学图像诊断实验证明了我们方法的优越性。
  • 作者讲解
  • 图表
  • 解决问题
    如何解决医学领域中缺乏高质量图像-文本数据的问题,以促进医学视觉语言模型的发展?
  • 关键思路
    通过诊断引导的引导策略,利用图像和标签信息构建视觉语言数据集,并开发了能够处理医学数据多模态的通用基础模型MedDr。在推理过程中,提出了一种简单而有效的检索增强医学诊断策略,提高了模型的泛化能力。
  • 其它亮点
    实验表明,该方法在视觉问答、医学报告生成和医学图像诊断方面的表现优于其他方法。开源数据集和代码可供使用。
  • 相关研究
    与该领域的相关研究包括:《Clinically Applicable Deep Learning for Diagnosis and Referral in Retinal Disease》、《Deep Learning for Healthcare: Review, Opportunities and Challenges》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问