Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction

向作者提问

NEW

简介

大语言模型（LLMs）在单轮输入全部临床信息时，医疗诊断准确率较高；然而，当面对更贴近真实临床推理过程的多轮证据逐步累积场景时，其行为表现尚属未知。为此，我们提出了MINT（医学增量式N轮诊断基准），这是一个高保真、多轮次的医学诊断评测基准，包含1035个临床案例，每个案例均配有经临床专家标注的证据片段（evidence shards），具备可控的轮次粒度（turn granularity），并采用信息无损分解方式构建。通过对11种大语言模型在MINT上的系统性评测，我们揭示了显著影响诊断决策的三种稳定行为模式：（1）“急于作答”倾向：模型常在尚未获取充分证据时便仓促给出诊断结论，超过55%的答案在前两轮内即已确定；（2）“自我修正”能力：模型将错误答案修正为正确答案的发生率，高达将正确答案误改为错误答案发生率的10.6倍，表明其内在具备可观的自我修正潜力，但该能力常因过早承诺答案而被扼杀；（3）“强干扰项效应”：具有高度临床相关性的信息（如实验室检验结果）极易诱发模型提前作答，即便明确提示其“须等待更多信息”，此类干扰仍难以避免。我们将上述发现转化为具临床可操作性的实践建议：将诊断问题延后至后续轮次再提出，可有效抑制过早作答行为，并使模型在首次作出诊断承诺时的准确率最高提升达62.6%；而将关键临床证据（如实验室结果、影像学发现等）保留至后期轮次再呈现，则可避免因过早承诺所导致的诊断准确率断崖式下滑——降幅最高可达23.3%。本研究不仅构建了一个可控、严谨的多轮医学诊断评测框架，更提供了切实可行的优化路径，以切实提升大语言模型在真实临床多轮交互场景下的诊断可靠性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探究大型语言模型（LLMs）在贴近真实临床场景的多轮增量式诊断推理中的行为可靠性——即当临床证据随对话轮次逐步披露（而非一次性给全）时，模型是否能稳健推迟判断、动态整合信息并自我修正；该问题此前未被系统建模与量化评估，是一个新且具临床落地紧迫性的问题。
关键思路

提出MINT基准：首个高保真、可控粒度、信息无损分解的多轮医学诊断评测框架，通过显式建模‘证据分片—轮次—诊断决策’因果链，将临床推理过程解耦为可测量的行为维度（如提前作答倾向、自我修正率、强线索干扰效应），并基于实证发现提出‘延迟提问’和‘线索错峰呈现’两项干预策略，从交互设计层面提升模型可靠性——其创新在于将诊断任务从静态判别转向动态认知过程建模。
其它亮点

系统评测11个主流LLMs（含GPT-4、Claude、Med-PaLM 2等）；构建1,035例真实临床案例，每例标注证据 shards、黄金诊断及轮次关键节点；发现三大鲁棒性瓶颈：>55%答案在前两轮仓促给出、自我修正率高达10.6×反向错误率、实验室结果等强线索显著诱发提前作答；验证‘延迟提问’使首答准确率提升62.6%，‘后置关键证据’避免23.3%准确率崩塌；MINT数据集与评估代码已开源（https://github.com/med-ai/mint）。
相关研究

Recent related works include: 'Med-PaLM: Towards Medical Dialogue Systems that Support Physicians' (2022), 'MultiMedQA: A Large-Scale Benchmark for Multimodal Medical Question Answering' (2023), 'DxRAG: Retrieval-Augmented Diagnosis with Clinical Evidence Chains' (2023), 'ClinicQA: A Real-World Clinical Question-Answering Dataset' (2024), and 'LongContextMed: Evaluating LLMs on Long Clinical Notes' (2024).

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问