D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions

2024年07月02日
  • 简介
    大型语言模型(VLMs)从研究到通用用例的适用性取得了令人难以置信的进展。LLaVA-Med是一款开创性的大型语言和视觉助手,用于生物医学领域,可以执行多模式生物医学图像和数据分析,为放射科医生提供自然语言接口。虽然它高度通用,并且可以使用多模式数据,但它目前受到大型语言模型空间中已知挑战的限制。幻觉和回答不精确可能导致误诊,这目前阻碍了VLMs的临床适应性。为了在医疗保健领域创建精确、用户友好的模型,我们提出了D-Rax——一种领域特定的、对话式的放射学辅助工具,可用于获得有关特定放射学图像的见解。在本研究中,我们增强了胸部X线(CXR)图像的对话分析,以支持放射学报告,提供来自医学成像的全面见解,并帮助制定准确的诊断。通过在我们的策划增强指令跟踪数据上微调LLaVA-Med架构,包括图像、指令,以及从MIMIC-CXR成像数据、CXR相关的视觉问题回答(VQA)对和来自多个专家AI模型的预测结果中得出的疾病诊断和人口统计预测,我们实现了D-Rax。我们观察到,在开放式和封闭式对话评估中,响应有统计学显著的改进。借助最先进的诊断模型和VLMs的力量,D-Rax赋予临床医生使用自然语言与医学图像交互的能力,这可能会简化他们的决策过程,提高诊断准确性,并节省时间。
  • 图表
  • 解决问题
    本文旨在解决大型语言模型在医疗领域中存在的幻觉和不精确性问题,提出了一种基于LLaVA-Med架构的领域特定的、对话式的放射学辅助工具D-Rax,以自然语言的方式提供对胸部X光图像的综合分析和诊断。
  • 关键思路
    D-Rax通过在MIMIC-CXR图像数据、CXR相关视觉问答对和多个专家AI模型的预测结果的基础上,对LLaVA-Med架构进行微调,实现了对胸部X光图像的自然语言交互分析,从而提高了诊断准确性和临床工作效率。
  • 其它亮点
    本文的亮点在于提出了一种领域特定的、对话式的放射学辅助工具,实现了自然语言交互分析,提高了诊断准确性和临床工作效率。实验使用了MIMIC-CXR图像数据、CXR相关视觉问答对和多个专家AI模型的预测结果进行微调,取得了显著的实验结果。该工具对医疗领域的放射学诊断具有重要的应用价值。
  • 相关研究
    在该领域的相关研究包括:1.《A survey of deep learning in medical image analysis》;2.《Deep learning for medical image analysis: A review》;3.《End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论