DRUGONE
科学发现的核心过程在于研究人员不断提出新假设,并通过实验进行验证。为增强这一过程,研究人员开发了名为 Co-Scientist 的多智能体人工智能系统,该系统基于 Google DeepMind 的 Gemini 模型构建,旨在实现结构化科学思维与科研假设生成。与传统文献总结工具不同,Co-Scientist 的目标是帮助研究人员发现真正的新知识。系统能够结合研究目标与既有科学证据,自动提出具有新颖性、可验证性的研究假设,并进一步设计实验方案。
Co-Scientist 的核心机制是多个智能体持续进行“生成—批判—优化”循环,通过扩展测试阶段计算量(test-time compute)来不断提升假设质量。系统的关键创新包括:第一,采用异步任务执行框架的多智能体架构,使其能够灵活扩展计算资源;第二,引入类似进化竞赛(tournament evolution)的机制,使系统能够在自我竞争中不断改进假设质量。自动评估结果表明,随着推理时间增加,系统生成的假设质量持续提升。
研究人员进一步在三个真实生物医学场景中验证了该系统,包括药物再利用、新治疗靶点发现以及抗菌耐药机制解释。特别是在急性髓系白血病(AML)研究中,Co-Scientist 成功提出了新的药物再利用候选物与联合治疗方案,并通过体外实验获得验证。这些结果表明,AI 协同科学家系统有望显著加速科学发现过程,并推动“AI赋能科学家”的新时代到来。

现代科学研究正在面临一个越来越严重的“广度与深度矛盾”。随着学科不断细分,研究问题变得愈加复杂,研究人员往往需要极深的专业知识才能推动领域前沿。然而,真正具有突破性的创新往往又来自跨学科知识之间的连接。与此同时,科学文献数量呈指数级增长,各类专门技术不断涌现,使得研究人员越来越难同时兼顾领域深度与跨学科视野。
另一方面,人工智能技术正在快速向通用智能与协作型系统演化。新一代 AI 不仅具备高级推理能力、多模态理解能力,还能通过工具调用执行复杂任务,并在长时间尺度上持续推理。随着模型蒸馏与推理成本优化的发展,这类 AI 系统正在变得更加可获得与可扩展。
基于这一背景,研究人员开发了 Co-Scientist,希望构建一个真正能够参与科学思维过程的 AI 协同研究系统。该系统并非简单总结文献,而是模拟科学方法本身,通过搜索、学习、推理、批判和迭代优化,生成新的科学假设与研究方案。研究人员希望这种系统能够成为科学家的合作伙伴,在复杂问题中帮助研究人员发现隐藏联系、提出原创性研究方向,并最终加速科学发现。
方法
Co-Scientist 采用基于 Gemini 的多智能体架构构建。系统包含多个具有不同职责的专门智能体,包括生成智能体(Generation)、反思智能体(Reflection)、排序智能体(Ranking)、进化智能体(Evolution)、相似度智能体(Proximity)以及元审查智能体(Meta-review)。这些智能体通过异步任务框架协同工作,模拟真实科学研究中的“提出假设—同行评议—竞争筛选—持续优化”过程。
研究人员只需以自然语言输入研究目标,系统便会自动搜索相关文献、整合已有知识、提出新假设,并利用自我辩论(scientific debate)与锦标赛机制不断优化输出结果。系统还能够通过网页搜索和其他 AI 工具进行事实验证与知识补充,从而降低幻觉问题并增强科学可靠性。
此外,Co-Scientist 采用“scientist-in-the-loop”模式,允许研究人员在推理过程中不断介入,包括修改目标、补充约束条件、提出新方向以及反馈已有结果。系统还具有长期上下文记忆能力,可在长时间推理中持续积累知识与状态信息,实现递归式科学推理。

图1:Co-Scientist 系统架构、多智能体协作流程及三类生物医学验证任务。
结果
多智能体架构能够显著提升科学推理质量
研究人员首先分析了 Co-Scientist 各智能体模块的作用。消融实验表明,多智能体结构对于科学推理至关重要。例如,当 Reflection 智能体接入外部搜索工具后,系统能够显著减少“看似新颖但实际上不合理”的幻觉性假设。与此同时,Ranking 智能体中的科学辩论机制能够明显提升假设排序质量,并降低位置偏差问题。
Evolution 智能体则负责持续优化已有假设,其迭代优化过程能够显著提高最终研究方案质量。整体来看,Co-Scientist 并非简单依赖单次文本生成,而是通过多个智能体持续协同,实现类似真实科研团队的集体推理过程。
扩展测试阶段计算量能够持续提高假设质量
研究人员进一步分析了 test-time compute scaling 对系统性能的影响。他们在 203 个不同研究目标上持续监测系统生成假设的 Elo 评分变化。结果发现,随着系统推理时间增加,生成假设的 Elo 评分持续上升,说明系统能够在长时间推理中不断自我优化。
随后,研究人员又在 15 个由生物医学专家设计的高难度问题上,将 Co-Scientist 与多个前沿大模型进行比较,包括 Gemini 2.0 Pro、OpenAI o1、OpenAI o3-mini-high 与 DeepSeek R1。结果显示,随着推理不断迭代,Co-Scientist 最终能够显著超过其他模型,并生成更高质量、更具新颖性的科学假设。
更重要的是,研究人员并未观察到性能饱和现象。这意味着随着计算资源进一步增加,Co-Scientist 仍可能持续提高科学推理能力。

图2:测试阶段计算扩展对 Co-Scientist 假设质量提升的影响。
专家评估表明 Co-Scientist 更具新颖性与影响力
研究人员邀请领域专家对系统输出进行盲评。专家分别从“新颖性”“潜在影响力”以及“总体偏好”三个维度对不同模型输出进行评分。
结果显示,Co-Scientist 在三个指标中均表现最佳。专家认为,该系统提出的研究方向往往具有更强原创性,并能够针对重要科学问题提出更具潜在影响力的解决方案。
此外,研究人员发现,专家主观偏好与 Elo 自动评分之间具有较好一致性,说明 Elo 指标在一定程度上能够反映真实科研价值。
Co-Scientist 成功发现 AML 药物再利用候选物
在药物再利用任务中,研究人员要求 Co-Scientist 从 2300 种已批准药物中寻找适用于 34 种癌症的新适应症。系统随后提出了一系列 AML 候选治疗方案。
在体外实验验证中,Binimetinib、Pacritinib 与 Cerivastatin 均显示出对白血病细胞的抑制作用。其中,Binimetinib 在多个 AML 细胞系中表现出极低的 IC50 值,而对非 AML 对照细胞毒性明显较低。
更值得注意的是,Co-Scientist 还能自主提出此前从未被用于 AML 的全新候选药物。例如,系统提出的 IRE1α 抑制剂 KIRA6 在 KG-1a 白血病细胞中表现出极强选择性,其 IC50 仅为 10 nM,而在正常 TK6 细胞中的 IC50 达 180 nM,形成了明显的治疗窗口。
这些结果表明,Co-Scientist 不仅能够总结已有知识,还能够主动发现新的潜在治疗方向。

图3:Co-Scientist 提出的 AML 单药再利用候选物体外实验验证结果。
AI 能够发现复杂的协同药物组合
除了单药发现,研究人员还测试了 Co-Scientist 在多药联合治疗设计中的能力。由于药物组合空间呈指数增长,传统实验筛选极其昂贵,因此这一任务尤其适合 AI。
系统成功提出多个 AML 协同药物组合。例如,JNJ-64619178 与 Selinexor 的组合在实验中表现出显著协同效应;三联方案 JQ1 + Olaparib + MSA2 也在多个条件下显示出强烈协同作用。
这些结果说明,Co-Scientist 能够在极高维度的组合空间中寻找有效治疗方案,而无需进行海量实验筛选。

图4:Co-Scientist 预测的 AML 协同药物组合验证结果。
Co-Scientist 能够推动临床转化设计
研究人员进一步要求 Co-Scientist 对药物临床转化可行性进行结构化分析。系统综合考虑患者年龄、风险分层、分子特征、药代动力学与安全性等因素后,成功识别出 Binimetinib 最适用于“高龄、复发、耐药 AML 患者”这一特定临床场景。
系统还发现 Binimetinib 通过 UGT1A1 代谢,可避免当前 AML 靶向药常见的 CYP3A4 药物相互作用问题,显示出 AI 在临床策略设计中的潜在价值。
Co-Scientist 发现新的肝纤维化治疗靶点
在肝纤维化研究中,Co-Scientist 提出了多个新的表观遗传学治疗靶点。研究人员随后利用人源肝脏类器官模型进行验证,发现其中两个候选靶点对应药物能够显著抑制纤维化,而不会引起明显毒性。
其中一种有效药物 Vorinostat 已经获得 FDA 批准用于其他癌症治疗,因此具有进一步药物再利用潜力。
AI 独立复现了尚未发表的抗菌耐药机制
在抗菌耐药机制研究中,研究人员让 Co-Scientist 探索 cf-PICI 如何跨越不同细菌物种传播。令人惊讶的是,系统仅用两天便独立提出了正确机制:cf-PICI 能够通过与不同噬菌体尾部结构相互作用扩展宿主范围。
这一结论与研究团队尚未发表的实验发现高度一致,显示 AI 已具备在某些复杂科学问题中接近专家级别的推理能力。
讨论
研究人员认为,Co-Scientist 的最大创新在于其真正模拟了科学方法本身。与传统“暴力生成”不同,该系统采用“生成—辩论—进化”的递归机制,通过多智能体协作不断优化研究假设。
在多个真实生物医学任务中的实验验证表明,该系统已经能够提出具有实验价值的新假设,并在部分情况下成功推动新的科学发现。这意味着 AI 不再只是信息检索工具,而正在逐步演化为真正意义上的“科研协作者”。
不过,研究人员也强调了当前系统的局限性。首先,Co-Scientist 主要依赖开放获取文献,因此无法充分利用付费文献与负结果数据。其次,系统仍可能受到错误文献与模型幻觉影响。虽然多智能体机制能够缓解问题,但尚无法完全消除。
此外,研究人员担忧,如果缺乏严格同行评议与科学监督,大规模 AI 科研生成可能加剧低质量研究与可重复性危机。因此,未来 AI 科研系统必须始终保持“human-in-the-loop”模式,以增强而非替代人类科学家。
未来,研究人员计划进一步增强系统的多模态推理、数据库分析与实验反馈学习能力,并最终将 Co-Scientist 与实验室自动化平台连接,构建真正的“闭环自动科学发现系统”。
总体而言,Co-Scientist 展示了 AI 辅助科学发现的重要潜力,也为未来“AI+科学”研究范式打开了新的方向。
整理 | DrugOne团队
参考资料
Gottweis, J., Weng, WH., Daryin, A. et al. Accelerating scientific discovery with Co-Scientist. Nature (2026).
https://doi.org/10.1038/s41586-026-10644-y

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢