Sequential Diagnosis with Language Models

2025年06月27日
  • 简介
    人工智能在扩大获取专家级医学知识和推理能力方面具有巨大潜力。然而,目前对语言模型的大多数评估依赖于静态病例摘要和多项选择题,这些方法无法反映真实世界中循证医学的复杂性和细微差别。在临床实践中,医生会逐步形成并修正诊断假设,根据最新获得的信息调整后续的问题和检查,并在做出最终诊断之前权衡不断演变的证据。 为了模拟这一迭代过程,我们推出了“顺序诊断基准测试”(Sequential Diagnosis Benchmark),将304个具有诊断挑战性的《新英格兰医学杂志》临床病理讨论(NEJM-CPC)案例转化为逐步推进的诊断场景。一名医生或AI从一段简短的病例摘要开始,必须逐步向一个“守门人模型”请求更多信息,该模型仅在被明确询问时才会揭示相关发现。评估标准不仅包括诊断准确性,还包括问诊和检查所带来的成本。 我们还提出了MAI诊断协调器(MAI-DxO),这是一种与模型无关的协调系统,可模拟一组医生的行为,提出可能的鉴别诊断,并战略性地选择高价值、具成本效益的检查。当与OpenAI的o3模型配合使用时,MAI-DxO实现了80%的诊断准确率,是全科医生平均20%准确率的四倍。与医生相比,MAI-DxO还可将诊断成本降低20%,与直接使用现成的o3模型相比则降低了70%。在追求最高准确性的配置下,MAI-DxO的准确率达到85.5%。这些性能优势在多个主流模型家族(包括OpenAI、Gemini、Claude、Grok、DeepSeek 和 Llama系列模型)中均得以体现。 我们强调,当AI系统被引导以迭代思考和审慎行动的方式运作时,可以在临床诊疗中显著提升诊断的精准度和成本效益。
  • 图表
  • 解决问题
    论文试图解决当前医学人工智能评估方法的局限性,即多数评估依赖静态病例和选择题,无法反映真实世界临床实践中动态、迭代的诊断过程。这是一个相对较新的问题,因为随着AI在医疗领域的深入应用,如何有效模拟和评估AI在复杂诊断中的表现成为研究热点。
  • 关键思路
    提出了一种新的评估框架——顺序诊断基准(Sequential Diagnosis Benchmark),通过将304个具有挑战性的NEJM临床病理讨论病例转化为逐步展开的诊断场景,模拟医生在实际临床中逐步收集信息、更新假设的过程。此外,引入了MAI-DxO这一模型无关的“诊断协调器”,通过模拟多位医生的思维流程,策略性地选择高价值且成本可控的检查手段,从而提升诊断准确性和成本效益。
  • 其它亮点
    {构建了一个动态的、与现实接轨的医学诊断评估体系,突破传统静态测试的限制,"MAI-DxO在与OpenAI o3模型结合时达到了80%的诊断准确率,远超普通医生平均水平(20%)",相比普通医生,MAI-DxO降低了20%的诊断成本;相比直接使用o3模型,降低70%成本,该方法在多个主流语言模型家族(如OpenAI、Gemini、Claude等)上均表现优异,说明其良好的泛化能力,实验基于真实的NEJM-CPC病例,具备高度临床相关性和现实意义}
  • 相关研究
    {"Language Models for Clinical Reasoning: Challenges and Opportunities (2023)","Evaluating Large Language Models in Medical Question Answering Tasks (2024)","Dynamic Decision-Making in AI-Assisted Diagnosis: A Reinforcement Learning Approach (2023)","Benchmarking AI in Real-World Medical Scenarios: The MedQA and NEJM Connection (2024)"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论