MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis

2024年03月22日
  • 简介
    胸部X光图像常用于预测急性和慢性心肺疾病,但将它们与结构化临床数据集成的努力面临着电子健康记录不完整的挑战。本文介绍了\textbf{MedPromptX},这是第一个将多模式大语言模型(MLLMs)、少样本提示(FP)和视觉基础(VG)相结合,将影像与胸部X光诊断的EHR数据相结合的模型。预训练的MLLM被用来补充缺失的EHR信息,提供对患者医疗历史的全面理解。此外,FP减少了对MLLM进行广泛培训的必要性,同时有效解决了幻觉问题。然而,确定最佳少样本示例的数量并选择高质量的候选者的过程可能是繁琐的,但它深刻地影响了模型的性能。因此,我们提出了一种新的技术,动态地对少样本数据进行精细化处理,以实时调整新的患者情况。此外,VG有助于将模型的注意力集中在X光图像中相关的感兴趣区域上,增强异常的识别。我们发布了MedPromptX-VQA,这是一个新的上下文视觉问答数据集,涵盖了从MIMIC-IV和MIMIC-CXR数据库中获取的交错的图像和EHR数据。结果表明,MedPromptX的SOTA性能优于基线,F1分数提高了11%。代码和数据可在\url{https://github.com/BioMedIA-MBZUAI/MedPromptX}上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在将多模态大语言模型(MLLMs)、少样本提示(FP)和视觉基础(VG)相结合,将影像与电子病历数据相结合,以进行胸部X射线诊断。同时,论文还尝试解决电子病历数据不完整的问题。
  • 关键思路
    论文的解决方案是利用预训练的MLLM来补充缺失的电子病历信息,同时使用FP和VG来提高模型性能。论文还提出了一种新技术,即动态优化少样本数据,以适应新的患者情况。
  • 其它亮点
    论文的亮点包括:1.使用MLLM来补充缺失的电子病历信息;2.使用FP和VG来提高模型性能;3.提出了一种新技术,即动态优化少样本数据;4.发布了一个新的数据集MedPromptX-VQA,包含了来自MIMIC-IV和MIMIC-CXR数据库的交错图像和电子病历数据;5.实验结果表明,MedPromptX的性能优于基线模型。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.使用深度学习模型进行胸部X射线图像分析的研究;2.使用多模态数据进行医学诊断的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问