CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting

简介

最近，大型视觉语言模型展示了在解释复杂图像和使用先进推理生成自然语言描述方面的潜力。医学本质上是一种多模态的结构，将扫描和基于文本的医疗史用于撰写报告，因此有利于从这些AI能力的飞跃中受益。我们评估公开可用的、最先进的、基础的视觉语言模型在多个数据集和基准测试中用于胸部X射线解释的表现。我们使用线性探针来评估各种组件的性能，包括CheXagent的视觉转换器和Q-former，在许多不同的数据集上优于行业标准的Torch X-ray Vision模型，展示了强大的泛化能力。重要的是，我们发现视觉语言模型经常会产生自信的语言幻觉，这会减慢临床解释的速度。基于这些发现，我们使用CheXagent的线性探针和BioViL-T的短语基础工具开发了一种基于代理的视觉语言方法，用于生成基于可能性定位和描述病理的具有不确定性意识的放射学报告。我们使用NLP指标、胸部X射线基准测试和临床评估来全面评估我们的视觉语言代理，通过开发评估平台来进行呼吸专家的用户研究。我们的结果显示，AI生成的报告的准确性、可解释性和安全性都有了显着的改善。我们强调分别分析正常和异常扫描结果的重要性。最后，我们强调需要更大的配对（扫描和报告）数据集以及数据增强，以解决这些大型视觉语言模型中出现的过度拟合问题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在评估公开可用的最先进的视觉语言模型在胸部X射线解释方面的性能，并提出一种基于代理的视觉语言方法，用于生成具有不确定性感知的放射学报告。
关键思路

通过使用CheXagent的线性探针和BioViL-T的短语接地工具，将代理视觉语言方法应用于放射学报告生成，以提高准确性、可解释性和安全性。
其它亮点

论文使用线性探针评估了各种组件的性能，并开发了一个基于代理的视觉语言方法来生成具有不确定性感知的放射学报告。实验结果表明，这种方法在准确性、解释性和安全性方面都有显著的提高。
相关研究

最近的相关研究包括《Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。

CXR-Agent: Vision-language models for chest X-ray interpretation with uncertainty aware radiology reporting

提问交流

提问交流