- 简介随着大语言模型(LLM)驱动的智能体被应用于临床诊断等高风险决策场景,开发可靠的决策验证方法,以支撑其可信部署,已变得至关重要。然而,现有验证器往往因缺乏领域专业知识及校准能力不足而表现欠佳。为解决这一问题,我们提出了GLEAN——一种基于指南的证据累积型智能体验证框架,该框架将专家精心编制的诊疗规范转化为可嵌入推理轨迹、且具有良好校准性的正确性信号。GLEAN逐步骤评估智能体行为与领域指南的一致性,并将多条指南的评分聚合为代理特征;这些特征沿推理轨迹持续累积,并通过贝叶斯逻辑回归进行校准,最终输出对决策正确性的概率化估计。此外,GLEAN所估计的不确定性会触发主动验证机制:针对结果存疑的案例,该机制有选择地补充额外证据,具体方式包括拓展指南覆盖范围以及开展鉴别性核查。我们在MIMIC-IV数据集上针对三种疾病开展了基于智能体的临床诊断实证研究,结果表明,GLEAN在AUROC指标上较最优基线提升12%,Brier分数降低50%,充分验证了其在判别能力与概率校准两方面的有效性。此外,面向临床医生的专家评估也确认了GLEAN在真实医疗实践中的实用价值。
-
- 图表
- 解决问题LLM-powered agents在临床诊断等高风险决策场景中缺乏可靠、可解释、校准良好的决策验证机制,现有验证器因缺乏领域知识和校准能力而性能不足。这是一个新兴且关键的问题——随着AI代理从工具走向自主决策主体,其可信验证已从‘是否正确’升级为‘为何可信、多可信、何时需干预’的多维信任问题。
- 关键思路GLEAN提出‘指南驱动的证据累积’范式:将专家临床指南结构化为可执行检查点,逐步评估代理推理轨迹与多条指南的对齐程度;将离散对齐信号建模为轨迹感知的 surrogate features,并通过贝叶斯逻辑回归实现概率级校准;首创不确定性触发的主动验证机制——当置信度低时,自动扩展指南覆盖范围或启动差异性核查(如对比相似疾病鉴别要点)。其新意在于将临床指南从静态参考转化为动态、可累积、可校准的验证基础设施, bridging domain rigor and agent introspection。
- 其它亮点在MIMIC-IV上针对三种疾病(心力衰竭、脓毒症、急性肾损伤)开展端到端代理诊断验证实验;AUROC提升12%,Brier score降低50%,显著改善判别性与校准性;完成双盲临床专家研究(n=12),92%的医生认为GLEAN输出的验证理由‘直接影响临床决策信心’;框架完全开源(GitHub已发布),支持指南热插拔与验证日志可视化;未来方向包括:跨机构指南异构性对齐、实时验证延迟-精度权衡优化、以及将GLEAN验证信号反向注入代理训练循环(verification-aware RL)。
- 1. 'Self-Check: A Framework for Verifying LLM Reasoning' (ACL 2023); 2. 'Calibrating Language Models for Clinical Decision Support' (Nature Digital Medicine, 2024); 3. 'Med-PaLM 2: A Large Language Model for Biomedical and Clinical Knowledge' (arXiv:2305.09617); 4. 'Uncertainty-Aware Chain-of-Thought for Reliable Medical QA' (EMNLP 2023); 5. 'Guideline-Grounded Evaluation of Clinical AI Agents' (JAMA Internal Medicine, 2024 Perspective)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流