Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification

向作者提问

NEW

简介

随着大语言模型（LLM）驱动的智能体被应用于临床诊断等高风险决策场景，开发可靠的决策验证方法，以支撑其可信部署，已变得至关重要。然而，现有验证器往往因缺乏领域专业知识及校准能力不足而表现欠佳。为解决这一问题，我们提出了GLEAN——一种基于指南的证据累积型智能体验证框架，该框架将专家精心编制的诊疗规范转化为可嵌入推理轨迹、且具有良好校准性的正确性信号。GLEAN逐步骤评估智能体行为与领域指南的一致性，并将多条指南的评分聚合为代理特征；这些特征沿推理轨迹持续累积，并通过贝叶斯逻辑回归进行校准，最终输出对决策正确性的概率化估计。此外，GLEAN所估计的不确定性会触发主动验证机制：针对结果存疑的案例，该机制有选择地补充额外证据，具体方式包括拓展指南覆盖范围以及开展鉴别性核查。我们在MIMIC-IV数据集上针对三种疾病开展了基于智能体的临床诊断实证研究，结果表明，GLEAN在AUROC指标上较最优基线提升12%，Brier分数降低50%，充分验证了其在判别能力与概率校准两方面的有效性。此外，面向临床医生的专家评估也确认了GLEAN在真实医疗实践中的实用价值。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

LLM-powered agents在临床诊断等高风险决策场景中缺乏可靠、可解释、校准良好的决策验证机制，现有验证器因缺乏领域知识和校准能力而性能不足。这是一个新兴且关键的问题——随着AI代理从工具走向自主决策主体，其可信验证已从‘是否正确’升级为‘为何可信、多可信、何时需干预’的多维信任问题。
关键思路

GLEAN提出‘指南驱动的证据累积’范式：将专家临床指南结构化为可执行检查点，逐步评估代理推理轨迹与多条指南的对齐程度；将离散对齐信号建模为轨迹感知的 surrogate features，并通过贝叶斯逻辑回归实现概率级校准；首创不确定性触发的主动验证机制——当置信度低时，自动扩展指南覆盖范围或启动差异性核查（如对比相似疾病鉴别要点）。其新意在于将临床指南从静态参考转化为动态、可累积、可校准的验证基础设施， bridging domain rigor and agent introspection。
其它亮点

在MIMIC-IV上针对三种疾病（心力衰竭、脓毒症、急性肾损伤）开展端到端代理诊断验证实验；AUROC提升12%，Brier score降低50%，显著改善判别性与校准性；完成双盲临床专家研究（n=12），92%的医生认为GLEAN输出的验证理由‘直接影响临床决策信心’；框架完全开源（GitHub已发布），支持指南热插拔与验证日志可视化；未来方向包括：跨机构指南异构性对齐、实时验证延迟-精度权衡优化、以及将GLEAN验证信号反向注入代理训练循环（verification-aware RL）。
相关研究

1. 'Self-Check: A Framework for Verifying LLM Reasoning' (ACL 2023); 2. 'Calibrating Language Models for Clinical Decision Support' (Nature Digital Medicine, 2024); 3. 'Med-PaLM 2: A Large Language Model for Biomedical and Clinical Knowledge' (arXiv:2305.09617); 4. 'Uncertainty-Aware Chain-of-Thought for Reliable Medical QA' (EMNLP 2023); 5. 'Guideline-Grounded Evaluation of Clinical AI Agents' (JAMA Internal Medicine, 2024 Perspective)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问