MEDEA: 5679次组学分析, 当AI"自信地犯错"时，哈佛团队让它学会了说"我不确定"

过去一年，Agent在生物医学领域完成了一次重要的概念验证。大量的agent工作证明通用型agent可以跨遗传学、微生物学、药理学等多个领域自主完成研究任务。这些工作共同回答了一个基础问题：AI 智能体能不能做真实场景下的多组学药物治疗研究？答案是越来越明确的"能"。这个领域正在经历一个从"AI辅助单个分析步骤"到"AI 智能体执行端到端研究计划"的范式跃迁。

但当智能体的分析结果要真正支撑治疗决策时：如推荐一个靶点进入临床前开发、判断一对基因是否构成合成致死关系、预测一名患者是否会对免疫治疗响应。"能做"就远远不够了。关键问题在于AI agent做出来的每一步分析，可信吗？可追溯吗？在证据冲突时，智能体怎么决策？在证据不足时，智能体会不会说"我不确定"？

哈佛医学院的隋芃玮/高尚华/Marinka Zitnik团队近期发布的MEDEA，是这类问题最系统的一次回应：一个会自我验证、会在证据不足时主动"闭嘴"的组学AI智能体 (agent)。

MEDEA是一个面向治疗发现的组学AI agent，接受自然语言描述的研究目标，使用20个专业工具(包括PINNACLE、TranscriptFormer、COMPASS等foundation model)执行多步分析，在每一步都内嵌了验证机制。MEDEA在三个开放式治疗发现任务上跑了5,679次完整组学分析，覆盖精准靶点发现(2,400次，涵盖5种疾病，29个细胞类型)、合成致死推理(2,385次，7个癌细胞系)、以及患者级别的免疫治疗响应预测(894次，298名膀胱癌患者)。

关键区别在这里：大部分现有agent要么在中间步骤产生幻觉，要么依赖固定模板无法跨context适配。MEDEA的做法不同：它在执行前验证工具与数据的兼容性，执行后审计输出与计划的一致性，对文献做相关性筛选而非直接聚合，在多源证据冲突时做结构化调和，在证据不足时选择弃权寻求帮助而非猜测。

精准靶点发现：细胞类型差一级，靶点就可能全错。

分析"跑通了"不等于分析"做对了"

2,400 次分析，覆盖 5 种疾病(类风湿关节炎、1型糖尿病、干燥综合征、肝母细胞瘤、滤泡性淋巴瘤)和 29 种细胞类型。MEDEA 比单独用大模型的准确率最高提升 45.9%。

大模型在长链条分析中，LLM会悄悄模糊细胞类型——比如把用户指定的"naïve CD4+ αβ T 细胞"简化为"CD4+ T 细胞"。但在类风湿关节炎中，这两种细胞的致病作用完全不同。MEDEA 的 Context Verification 会每一步检查分析是否仍对齐用户指定的细胞背景。仅此一项，就在髓样树突细胞上让准确率提升 28.9%。

消融实验揭示了一个结构性矛盾：LLM单独使用时几乎不从不放弃回答(1.8%)，但错误率平均69.2%；Literature-only配置77.6%的分析选择放弃回答——因为细胞类型特异的文献实在太少。完整 MEDEA做到了把多条证据通路串起来做交叉验证，达到最高准确率和最低失败率。

合成致死推理：在大模型答错的地方"纠错"

2,385次分析，覆盖7个癌细胞系。MEDEA比自己LLM backbone最高提升21.7%(MCF7)。

值得注意的数字：MEDEA在至少323个LLM答错的case中给出了正确判断，在175个LLM选择放弃回答的case中也给出了正确答案。同时，在141个LLM犯错的case中，MEDEA选择了放弃回答而不是跟着错。它整合了 DepMap 基因共依赖分数与通路富集分析，对基因对联合抑制是否会选择性杀死癌细胞，做出有据可查的判断。

免疫治疗响应预测：当证据打架时，AI 如何决策？

894 次患者级别分析，基于 IMvigor210 膀胱癌队列(298 名患者)。MEDEA 比大模型最高提升 23.9%。在最困难的亚组(高 TMB、非炎症型微环境)中，MEDEA 修正了底层机器学习模型 50.9% 的误分类。

一个有说明力的case：一名TMB 19.0的男性患者，GPT-4o和Claude 3.7 Sonnet都预测"响应"——高TMB通常意味着好的免疫治疗效果。但MEDEA的Analysis模块调用COMPASS模型分析肿瘤转录组后发现T细胞耗竭严重（score 0.5067）、B cell浸润极低（0.0260），同时LiteratureReasoning agent检索到的文献恰恰支持"高TMB→好响应"。两条证据直接矛盾。 MultiRoundDiscussion调和后判定微环境功能障碍信号优先于TMB统计关联，预测"不响应"。

患者的实际结局：疾病进展(progressive disease)。整个决策过程可追溯。

验证机制往往比底层模型能力更重要

消融实验表明： MEDEA 的性能提升并非来自更强的底层大模型。无论用 GPT-4o 还是 Claude 3.7 Sonnet 做 backbone，去掉验证模块后性能都显著下降。这说明，当前组学 agent 的瓶颈可能不在推理能力，而在过程可靠性。

也正是因为框架机制，Medea会根据疾病上下文决定调用哪个最适配的工具 -- 类风湿关节炎用 PINNACLE，肝母细胞瘤用 TranscriptFormer。随着单细胞基础模型不断成熟，这种在异构模型空间中做 tool selection 的能力会越来越重要。

透明的输出形态。 MEDEA 返回的不是一个标签，而是一份可审计的分析报告——研究计划、每步工具调用与输出、文献检索与相关性评分、证据调和的 reasoning trace。对于需要向团队解释"为什么推荐这个靶点"的场景，这种可追溯性是必需的。

全部开源。代码、benchmark、20个工具的配置均已发布。模块化设计支持选择性集成。

如果从这篇论文里只带走一个insight，大概是这个：在药物发现中，一个自信的错误答案，远比一句诚实的"我不确定"代价更高。

MEDEA 在证据不足时选择不回答（calibrated abstention）可能是整篇工作中最被低估、却最有实际价值的能力。

参考资料

MEDEA: An omics AI agent for therapeutic discovery

Pengwei Sui*, Michelle M. Li*, Shanghua Gao, Wanxiang Shen, Valentina Giunchiglia, Andrew Shen, Yepeng Huang, Zhenglun Kong, Marinka Zitnik‡

Harvard Medical School · Kempner Institute · Broad Institute of MIT and Harvard

📄 https://medea.openscientist.ai · 💻 https://github.com/mims-harvard/Medea

内容中包含的图片若涉及版权问题，请及时与我们联系删除

MEDEA: 5679次组学分析, 当AI"自信地犯错"时，哈佛团队让它学会了说"我不确定"

评论列表

评论