- 简介一个准确的鉴别诊断(DDx)是医疗护理的基石,通常是通过结合临床病史、体格检查、检查和程序的解释迭代过程来达成的。由大型语言模型(LLM)提供支持的交互界面为协助和自动化这个过程提供了新的机会。在这项研究中,我们介绍了一个针对诊断推理进行优化的LLM,并评估其单独或作为临床医生辅助工具生成DDx的能力。20名临床医生评估了从《新英格兰医学杂志》(NEJM)案例报告中获取的302个具有挑战性的真实医疗案例。每个案例报告由两名临床医生阅读,他们被随机分配到两种协助条件之一:搜索引擎和标准医疗资源的协助,或者除这些工具外还有LLM协助。所有临床医生在使用相应的辅助工具之前提供了基线未协助的DDx。我们的DDx LLM表现出了超过未经协助的临床医生的独立表现(前10位准确率为59.1% vs 33.6%,[p = 0.04])。比较两个协助研究组,LLM协助的临床医生的DDx质量得分高于没有其协助的临床医生(前10位准确率为51.7% vs 36.1%)(麦克尼马尔检验:45.7,p < 0.01),以及使用搜索引擎的临床医生(44.4%)(4.75,p = 0.03)。此外,通过我们的LLM协助的临床医生得出的鉴别诊断列表比没有其协助的临床医生更全面。我们的研究表明,我们的DDx LLM有潜力提高临床医生在具有挑战性的病例中的诊断推理和准确性,值得进一步在现实世界中进行评估,以评估其赋能医生和扩大患者访问专业水平专业知识的能力。
- 图表
- 解决问题评估使用大型语言模型辅助医生进行诊断的效果,以及其是否能够提高诊断准确性和全面性。
- 关键思路使用针对诊断推理优化的大型语言模型来辅助医生进行诊断,能够显著提高医生在复杂病例中的诊断准确性和全面性。
- 其它亮点本文提出了一种针对诊断推理优化的大型语言模型,该模型在独立运行时的表现超过了未经辅助的医生。实验表明,使用该模型辅助医生进行诊断能够显著提高诊断准确性和全面性。
- 相关研究包括使用人工智能辅助医生进行诊断的研究,如《A Deep Learning System for Differential Diagnosis of Skin Diseases》等。
沙发等你来抢
去评论
评论
沙发等你来抢