- 简介通过现代视觉语言模型(VLMs),Chest X-ray(CXR)理解方面已经取得了重大的方法学进展,展示了令人印象深刻的视觉问答(VQA)和CXR报告生成能力。然而,现有的CXR理解框架仍然存在几个程序性的注意事项。(1)以前的方法仅使用CXR报告,这对于全面的视觉问答(VQA)来说是不足的,特别是当需要额外的与健康相关的数据,如用药史和先前的诊断时。(2)以前的方法使用原始的CXR报告,这些报告通常是任意结构的。虽然现代语言模型可以理解各种文本格式,但通过重新构造报告以获得更清晰、有组织的基于解剖学的信息,可以增强它们的实用性。(3)当前的CXR-VQA评估方法主要强调语言的正确性,缺乏提供生成答案的微妙评估能力。在这项工作中,为了解决上述注意事项,我们引入了WoLF,一个用于CXR理解的广域大语言模型框架。为了解决(1),我们捕获了患者的多方面记录,这些记录在实际临床场景中用于准确的诊断。具体而言,我们采用电子健康记录(EHR)生成适用于CXR理解的指令遵循数据。关于(2),我们通过遮蔽注意力甚至在注意步骤内基于解剖结构解耦CXR报告中的知识,以提高报告生成性能。为了解决(3),我们引入了一个针对LLM能力进行优化的AI评估协议。通过广泛的实验验证,WoLF在MIMIC-CXR上表现出优越的性能,在AI评估领域方面的VQA(最高+9.47%p平均得分)和报告生成方面的指标(+7.3%p BLEU-1)都比其他模型表现出更好的性能。
- 图表
- 解决问题本论文旨在解决现有CXR理解框架中存在的问题,如使用不足的CXR报告、缺乏结构化的报告以及评估方法的不足等。
- 关键思路WoLF框架通过使用电子病历记录来获取多方面的患者信息,使用层次注意力机制来增强报告的结构化信息,并引入AI评估协议来优化模型的评估。
- 其它亮点实验结果表明,WoLF在VQA和报告生成方面表现优异,并提供了开源代码和使用的数据集。值得进一步研究的是,如何将该框架应用于其他医疗图像领域。
- 与此相关的研究包括使用深度学习模型进行医疗图像分析和理解的研究,如使用卷积神经网络进行疾病诊断和图像分割的研究。
沙发等你来抢
去评论
评论
沙发等你来抢