AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments

2024年05月13日
  • 简介
    诊断和治疗患者是一个复杂的、顺序决策过程,需要医生获取信息(例如要进行哪些测试)并采取行动。人工智能(AI)和大型语言模型(LLM)的最新进展有望深刻影响临床护理。然而,目前的评估方案过分依赖静态的医学问答基准,无法满足实际临床工作所需的交互式决策。在这里,我们提出了AgentClinic:一个多模态基准,用于评估LLM在模拟临床环境中作为代理人运行的能力。在我们的基准测试中,医生代理必须通过对话和主动数据收集来揭示患者的诊断结果。我们提供了两个开放的医学代理基准测试:一个是多模态图像和对话环境,名为AgentClinic-NEJM,另一个是仅对话环境,名为AgentClinic-MedQA。我们在患者和医生代理中嵌入了认知和隐含偏见,以模拟偏见代理之间的真实互动。我们发现,引入偏见会导致医生代理的诊断准确性大幅降低,同时患者代理的遵从性、信心和后续咨询意愿也会降低。在评估一系列最先进的LLM时,我们发现,在MedQA等基准测试中表现出色的几个模型在AgentClinic-MedQA中表现不佳。我们发现,在AgentClinic基准测试中,用于患者代理的LLM是影响性能的重要因素。我们表明,既有有限的交互,也有过多的交互会降低医生代理的诊断准确性。本研究的代码和数据可在https://AgentClinic.github.io上公开获取。
  • 图表
  • 解决问题
    本论文旨在提出一种新的多模态基准测试AgentClinic,以评估大型语言模型(LLMs)在模拟临床环境中作为代理人的能力。
  • 关键思路
    AgentClinic是一种新的多模态基准测试,要求医生代理人通过对话和主动数据收集来揭示患者的诊断结果。
  • 其它亮点
    论文提出了两种开放式医疗代理基准测试:AgentClinic-NEJM和AgentClinic-MedQA,并在患者和医生代理人之间嵌入了认知和隐性偏见,以模拟现实交互。实验发现,引入偏见会导致医生代理人的诊断准确性大幅降低,患者代理人的遵从性、信心和后续咨询意愿也会降低。同时,论文发现在AgentClinic-MedQA中表现优异的LLMs在AgentClinic基准测试中表现不佳。此外,医生代理人的诊断准确性受到交互次数的限制和过多的交互次数的影响。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:《BERT for Clinical Question Answering: Overcoming Domain Shift using Domain Adaptive Layer Normalization》、《A Benchmark for End-to-End Diagnosis Generation from Medical Imaging and Clinical Data》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论