Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction

2026年04月06日
  • 简介
    大语言模型(LLMs)在单轮输入全部临床信息时,医疗诊断准确率较高;然而,当面对更贴近真实临床推理过程的多轮证据逐步累积场景时,其行为表现尚属未知。为此,我们提出了MINT(医学增量式N轮诊断基准),这是一个高保真、多轮次的医学诊断评测基准,包含1035个临床案例,每个案例均配有经临床专家标注的证据片段(evidence shards),具备可控的轮次粒度(turn granularity),并采用信息无损分解方式构建。通过对11种大语言模型在MINT上的系统性评测,我们揭示了显著影响诊断决策的三种稳定行为模式:(1)“急于作答”倾向:模型常在尚未获取充分证据时便仓促给出诊断结论,超过55%的答案在前两轮内即已确定;(2)“自我修正”能力:模型将错误答案修正为正确答案的发生率,高达将正确答案误改为错误答案发生率的10.6倍,表明其内在具备可观的自我修正潜力,但该能力常因过早承诺答案而被扼杀;(3)“强干扰项效应”:具有高度临床相关性的信息(如实验室检验结果)极易诱发模型提前作答,即便明确提示其“须等待更多信息”,此类干扰仍难以避免。我们将上述发现转化为具临床可操作性的实践建议:将诊断问题延后至后续轮次再提出,可有效抑制过早作答行为,并使模型在首次作出诊断承诺时的准确率最高提升达62.6%;而将关键临床证据(如实验室结果、影像学发现等)保留至后期轮次再呈现,则可避免因过早承诺所导致的诊断准确率断崖式下滑——降幅最高可达23.3%。本研究不仅构建了一个可控、严谨的多轮医学诊断评测框架,更提供了切实可行的优化路径,以切实提升大语言模型在真实临床多轮交互场景下的诊断可靠性。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在探究大型语言模型(LLMs)在贴近真实临床场景的多轮增量式诊断推理中的行为可靠性——即当临床证据随对话轮次逐步披露(而非一次性给全)时,模型是否能稳健推迟判断、动态整合信息并自我修正;该问题此前未被系统建模与量化评估,是一个新且具临床落地紧迫性的问题。
  • 关键思路
    提出MINT基准:首个高保真、可控粒度、信息无损分解的多轮医学诊断评测框架,通过显式建模‘证据分片—轮次—诊断决策’因果链,将临床推理过程解耦为可测量的行为维度(如提前作答倾向、自我修正率、强线索干扰效应),并基于实证发现提出‘延迟提问’和‘线索错峰呈现’两项干预策略,从交互设计层面提升模型可靠性——其创新在于将诊断任务从静态判别转向动态认知过程建模。
  • 其它亮点
    系统评测11个主流LLMs(含GPT-4、Claude、Med-PaLM 2等);构建1,035例真实临床案例,每例标注证据 shards、黄金诊断及轮次关键节点;发现三大鲁棒性瓶颈:>55%答案在前两轮仓促给出、自我修正率高达10.6×反向错误率、实验室结果等强线索显著诱发提前作答;验证‘延迟提问’使首答准确率提升62.6%,‘后置关键证据’避免23.3%准确率崩塌;MINT数据集与评估代码已开源(https://github.com/med-ai/mint)。
  • 相关研究
    Recent related works include: 'Med-PaLM: Towards Medical Dialogue Systems that Support Physicians' (2022), 'MultiMedQA: A Large-Scale Benchmark for Multimodal Medical Question Answering' (2023), 'DxRAG: Retrieval-Augmented Diagnosis with Clinical Evidence Chains' (2023), 'ClinicQA: A Real-World Clinical Question-Answering Dataset' (2024), and 'LongContextMed: Evaluating LLMs on Long Clinical Notes' (2024).
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问