Enhancing Human-Computer Interaction in Chest X-ray Analysis using Vision and Language Model with Eye Gaze Patterns

2024年04月03日
  • 简介
    最近的计算机辅助诊断技术在医学影像任务中表现出了良好的性能,特别是在胸部X光分析方面。然而,这些模型与放射科医师之间的交互主要限于输入图像。本研究提出了一种新的方法,利用包含放射科医师注意力的视觉语言模型(VLMs)和眼动数据,以增强胸部X光分析中的人机交互。我们的方法利用从眼动数据生成的热图,将其叠加到医学图像上,以突出放射科医师在胸部X光评估过程中关注的重点区域。我们在视觉问答、胸部X光报告自动化、错误检测和鉴别诊断等任务中评估了这种方法。我们的结果表明,包含眼动信息显著提高了胸部X光分析的准确性。此外,微调中眼动的影响得到了确认,因为它在所有任务中都优于其他医学VLMs,除了视觉问答。这项工作标志着利用VLM的能力和放射科医师的领域知识来提高医学影像AI模型的能力的潜力,为以人为中心的AI计算机辅助诊断铺平了一条新的道路。
  • 图表
  • 解决问题
    如何增强医生与AI模型在胸部X光图像分析中的交互?
  • 关键思路
    利用眼动数据和文本提示增强视觉语言模型的能力,提高胸部X光图像分析的准确性。
  • 其它亮点
    论文提出了一种新颖的方法,将眼动数据的热图叠加在医学图像上,以突出放射科医生在胸部X光评估过程中的关注重点,用于视觉问答、胸部X光报告自动化、错误检测和鉴别诊断等任务。实验结果表明,利用眼动数据可以显著提高胸部X光图像分析的准确性,同时还证实了眼动对微调的影响。
  • 相关研究
    近期的相关研究包括:1. "A survey on deep learning in medical image analysis";2. "Deep learning for medical image analysis: A review";3. "Interpretable deep learning in medical image analysis: A survey"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论