- 简介诊断和治疗患者是一个复杂的、顺序的决策过程,需要医生获取信息,如何选择检查,然后采取行动。人工智能(AI)和大型语言模型(LLM)的最新进展承诺深刻影响临床护理。然而,目前的评估方案过度依赖静态的医学问答基准,无法满足现实临床工作中所需的交互式决策制定。在这里,我们提出了AgentClinic:一个多模态基准,用于评估LLMs在模拟临床环境中作为代理的能力。在我们的基准测试中,医生代理必须通过对话和积极的数据收集来揭示患者的诊断。我们提供了两个开放基准:一个多模态图像和对话环境AgentClinic-NEJM,以及一个仅对话的环境AgentClinic-MedQA。我们在患者和医生代理中嵌入认知和隐含偏见,以模拟有偏见代理之间的真实互动。我们发现,引入偏见会导致医生代理的诊断准确性大幅降低,同时患者代理的遵从、信心和随访咨询意愿也会降低。评估一套最先进的LLMs,我们发现,在像MedQA这样的基准测试中表现出色的几个模型在AgentClinic-MedQA中表现不佳。我们发现,在AgentClinic基准测试中,患者代理使用的LLM是性能的一个重要因素。我们表明,医生代理的诊断准确性在交互有限和交互过多的情况下都会降低。本研究的代码和数据可在https://AgentClinic.github.io上公开获取。
- 图表
- 解决问题评估大语言模型在医疗决策中的作用,设计一个新的AgentClinic多模态基准测试,以测试大语言模型在模拟临床环境中的表现。
- 关键思路设计出AgentClinic多模态基准测试,通过对话和主动数据收集来测试医生代理人在诊断过程中的表现。在患者和医生代理人之间嵌入认知和隐性偏见,以模拟真实世界中的交互。发现引入偏见会导致医生代理人的诊断准确性大幅降低,同时患者代理人的遵从性、信心和随访咨询意愿也会降低。同时,发现在AgentClinic基准测试中表现优异的一些大语言模型在其他基准测试中表现不佳。
- 其它亮点论文设计了AgentClinic多模态基准测试,用于评估大语言模型在模拟临床环境中的表现。通过嵌入认知和隐性偏见来模拟真实世界中的交互。实验结果显示引入偏见会对医生代理人的诊断准确性产生重大影响,同时也会影响患者代理人的遵从性、信心和随访咨询意愿。此外,论文还发现在AgentClinic基准测试中表现优异的一些大语言模型在其他基准测试中表现不佳。
- 最近的相关研究包括:1.《用于医学自然语言处理的预训练语言模型》(Pretrained Language Models for Medical Natural Language Processing);2.《医学领域的自然语言处理:最新进展和挑战》(Natural Language Processing in Medicine: Latest Advances and Challenges)。
沙发等你来抢
去评论
评论
沙发等你来抢