全球首个！做科研比人类快200倍、自主发现候选新药，这个AI Agent登上Nature

全球首个能够完全自动化实验生物学中假说生成与数据分析的多 Agent 系统——Robin，登上了权威科学期刊 Nature。

Robin 由 FutureHouse 团队打造，能够自动完成提出假设、设计实验、分析数据、根据实验结果修正假设，且已自主发现了一种“干性年龄相关性黄斑变性dAMD”（导致失明的主要原因之一）新型治疗候选物。

值得一提的是，相比人工完成整个工作流，Robin 可将科研所需时间缩短约 200 倍。

论文链接：https://www.nature.com/articles/s41586-026-10652-y

研究团队指出，Robin 代表了 AI 驱动科学发现的新范式，标志着 AI 在科学研究中迈出了自主发现的第一步。该方法不仅可以重塑生物治疗开发，也可以从根本上加速科学过程，推动人们更深入理解自然世界。

首个全流程自动化多Agent系统

据论文介绍，Robin 将多个语言 Agent 整合进结构化工作流，其中 Crow 和 Falcon 负责文献相关任务，Finch 负责实验数据分析。

Crow：负责快速、宽泛的文献检索与摘要，用于在工作流早期为假设生成提供上下文。

Falcon：负责深度文献综述，当 Robin 确定候选药物后，Falcon 会对每个候选生成评估报告，覆盖科学依据、药理特征和文献方法质量等维度。

Finch：负责实验数据分析，它在 Jupyter notebook 环境中动态生成并执行 Python/R 代码，支持流式细胞术和 RNA-seq 等分析流程，并根据输入数据实时生成分析代码，以适应不同数据分布。

图｜Robin 的架构与工作流程

在 dAMD 任务中，Crow 先为 Robin 识别出了 10 个潜在疾病机制，并为每个机制匹配体外实验模型；随后，Robin 借助 LLM 评判器和 BTL 模型对方案进行排序，最终选出了最优实验策略，并用流式细胞术评估了药物是否能提升 RPE细胞吞噬能力。

在实验策略确定后，Crow 综合了约 400 篇文献，Robin 提出了 30 个候选治疗化合物，Falcon 则为每个候选生成评估报告。经排序和人工审核后，候选进入湿实验验证，其中湿实验由人类科学家完成，Robin 负责提出实验方向、生成假设并分析返回数据。

图｜Robin 提出了多种实验检测方法，并最终决定采用一种增强 RPE 吞噬功能的检测实验

系统验证与对比

为判断排序是否可靠，研究团队把 LLM 评判器给出的候选排序，与人类专家给出的候选排序进行了对照。

结果显示，在前 10 名候选中，LLM 和专家平均有 7.25 项重合，重合度超过随机选择的两倍。在重复两两比较中，LLM 评判器的内部一致性为 88%，高于人类专家的 61%。

在数据分析环节，Finch 会将同一份实验数据分配给 8 条独立轨迹分别分析，再由元分析模块汇总为共识结果。研究团队在流式细胞术和 RNA-seq 任务中测试了 Finch。其中，在 RNA-seq 流程中，样本拆分和序列比对仍由人类完成，Finch 主要负责后续差异表达分析。结果显示，Finch 在流式细胞术和 RNA-seq 任务中对专家评判标准的遵循率分别达到 100% 和 86%。

此外，为评估 Crow 和 Falcon 对结果质量的影响，研究团队还进行了消融实验。结果显示，替换 Falcon，或同时替换 Crow 和 Falcon，都会增加药物候选报告中的“幻觉”参考文献；在 assay proposal 检查中，用 o4-mini 替代 Crow 后，44.5% ± 6.37% 的参考文献被判定为“幻觉”。候选质量评估也表明，替换 Crow、Falcon 或二者，都会降低最终药物提案的整体质量。

图｜Crow 和 Falcon 消融实验。

此外，研究团队还将相同候选生成任务提交给 OpenAI Deep Research，要求模型生成 19 个候选，最终得到 17 个独特候选，其中 Resveratrol 和 GW3965 各重复了一次。随后，研究团队在 RPE-SC 吞噬实验中验证这些候选，但无一成为阳性命中；Deep Research 也没有提出通过 ROCK 抑制增强 RPE 吞噬的策略。

图｜与 OpenAI Deep Research 的比较。

实验结果

在第一轮实验中，研究团队从 Robin 推荐的候选中选取了 5 个进行测试，包括 Exendin-4、Fingolimod、MFGE8、 Y-27632 和 AICAR+TUDCA 组合，其中 MFGE8 作为阳性对照。

研究团队在 ARPE-19 细胞中加入 pHrodo 荧光珠进行初筛，Finch 对原始流式细胞术数据的分析结果与人工分析一致，说明这轮筛选结果较为可靠。

图｜RPE-SC 和 ARPE-19 表达经典 RPE 标志物及吞噬机制相关蛋白

在第一轮结果出来后，Robin 提出应追踪药物处理后 RPE 细胞的转录变化，并建议开展 RNA-seq 分析。随后，Finch 的差异表达分析发现，Y-27632 处理后 ABCA1 表达上调约 3 倍，调整后 p 值为 2.13×10^（-83）。ABCA1 是一种参与胆固醇和磷脂外排的转运蛋白，其脂质受体 ApoE 已在多项研究中被认为与 AMD 的遗传风险相关。这提示 ROCK 抑制可能通过影响脂质代谢或脂质转运相关通路，增强 RPE 的吞噬功能。

图｜Finch 基于 8 条 RNA-seq 分析轨迹得到的共识结果，显示有多少比例的分析识别出相同的基因持续上调或下调。

在第二轮实验中，Robin 在 Y-27632 的结果基础提出，ROCK 抑制可能是一条值得深入验证的增强 RPE 吞噬功能路径，考虑到 ripasudil 属于同类 ROCK 抑制剂，且已在日本获批用于青光眼治疗，因此被认为是更具转化潜力的候选药物。

在 ARPE-19 细胞中，ripasudil 将 RPE 吞噬活性提升至 DMSO 对照的 1.89 倍；人工复核得到的提升倍数为 1.75 倍，结果与自动分析基本一致，说明其促吞噬作用可靠存在。进一步的剂量-效应实验显示，ripasudil 的表现优于 Y-27632，因此成为后续验证的重点候选。

图｜Finch 流式细胞术分析轨迹的示例。

尽管 ROCK 抑制剂此前已被用于湿性 AMD 和其他视网膜新生血管疾病研究，Robin 首次提出可通过增强 RPE 吞噬功能，将其用于干性 AMD。为验证这一思路，研究团队在原代人类 RPE 干细胞（RPE-SC）中进行了实验，并以荧光标记的牛视杆外段（ROS）替代 pHrodo 珠作为吞噬底物。结果显示，ripasudil 和 Y-27632 在该模型中仍为阳性命中，且 ripasudil 效能更强。

此外，在后续 RPE-SC 的 ripasudil RNA-seq 实验中，ABCA1 上调再次得到复现。另一个值得注意的候选是 KL001。KL001 是一种昼夜节律调节剂，可通过抑制 CRY 蛋白的泛素依赖性降解发挥作用。研究团队指出，此前尚无人提出将 KL001 作为增强 RPE 吞噬功能的候选。

图｜Y-27632 和 ripasudil 在 RPE-SC 中的细胞毒性检测。

不足和未来方向

不过，研究团队也表示，Robin 依然存在很多局限，主要涉及实验规划、数据分析泛化能力和临床验证。

实验规划仍需要人类介入。尽管 Robin 可以提出实验方向和实验框架，但尚不能生成精确、可直接执行的实验操作协议。研究人员仍需将 Robin 的建议转化为实验室标准流程。未来的目标是让 Robin 提供更详细的方法描述，使其只需极少的人类介入即可在实验室中执行。

跨任务泛化能力也有限。Finch 的可靠输出依赖领域专家编写的任务级 Prompt，尤其在需要多步骤流水线的生物信息学任务中表现仍不足。研究团队认为，未来如果能让 Finch 自主生成或适配不同数据模态的提示，整个发现流程将变得更加自主。

现有药物发现结果仍停留在体外实验阶段。未来，Ripasudil 和 KL001 是否能真正用于 dAMD 治疗，还需要经过动物模型验证、疾病模型验证，以及随机对照临床试验评估。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

全球首个！做科研比人类快200倍、自主发现候选新药，这个AI Agent登上Nature

首个全流程自动化多Agent系统

系统验证与对比

实验结果

不足和未来方向

评论列表

评论