AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments

2024年05月13日
  • 简介
    诊断和管理患者是一个复杂的、顺序决策过程,需要医生获取信息(例如哪些测试要进行)并采取行动。人工智能(AI)和大型语言模型(LLMs)的最新进展有望深刻影响临床护理。然而,目前的评估方案过度依赖静态的医学问答基准,在真实临床工作中需要互动决策的方面表现不足。在这里,我们提出了AgentClinic:一个多模式基准来评估LLMs在模拟临床环境中作为代理人的能力。在我们的基准中,医生代理人必须通过对话和积极的数据收集来揭示患者的诊断。我们提供了两个开放的医疗代理基准:一个是多模式图像和对话环境,名为AgentClinic-NEJM;另一个是仅对话环境,名为AgentClinic-MedQA。我们在患者和医生代理人中嵌入了认知和隐含偏见,以模拟偏见代理人之间的真实互动。我们发现,引入偏见会导致医生代理人的诊断准确性大幅降低,同时患者代理人的遵从性、信心和随访咨询意愿也会降低。在评估一系列最先进的LLMs时,我们发现,在像MedQA这样的基准测试中表现出色的几个模型在AgentClinic-MedQA中表现不佳。我们发现,在AgentClinic基准测试中,用于患者代理人的LLM是影响性能的重要因素。我们表明,医生代理人的诊断准确性会在互动过少和互动过多的情况下降低。本文的代码和数据可在https://AgentClinic.github.io上公开获取。
  • 解决问题
    论文旨在通过AgentClinic多模态基准测试来评估大型语言模型在模拟临床环境中作为代理人的能力。同时,研究人员还试图探究引入认知和隐性偏差对模型性能的影响。
  • 关键思路
    AgentClinic基准测试要求医生代理通过对话和主动数据收集来发现患者的诊断结果,并在患者和医生代理之间嵌入认知和隐性偏差以模拟现实世界中的交互。
  • 其它亮点
    论文提出了两个开放的医疗代理基准测试:一个是多模态图像和对话环境的AgentClinic-NEJM,另一个是仅对话环境的AgentClinic-MedQA。研究人员发现引入偏差会导致医生代理的诊断准确性大幅降低,同时患者代理的遵从性、信心和随访咨询意愿也会降低。通过评估一系列最先进的大型语言模型,研究人员发现在MedQA等基准测试中表现出色的模型在AgentClinic-MedQA中表现不佳。同时,研究人员还发现患者代理中使用的大型语言模型是影响AgentClinic基准测试性能的重要因素。论文代码和数据公开可用。
  • 相关研究
    在这个领域的相关研究包括:1.《BERT for Clinical Question Answering: Overcoming Domain Specific Challenges》;2.《ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission》;3.《A Survey on Deep Learning in Medical Image Analysis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论