球首个能够完全自动化实验生物学中假说生成数据分析的多 Agent 系统——Robin,登上了权威科学期刊 Nature


Robin 由 FutureHouse 团队打造,能够自动完成提出假设、设计实验、分析数据、根据实验结果修正假设,且已自主发现了一种“干性年龄相关性黄斑变性dAMD”(导致失明的主要原因之一)新型治疗候选物


值得一提的是,相比人工完成整个工作流,Robin 可将科研所需时间缩短约 200 倍


Image

论文链接:https://www.nature.com/articles/s41586-026-10652-y


研究团队指出,Robin 代表了 AI 驱动科学发现的新范式,标志着 AI 在科学研究中迈出了自主发现的第一步。该方法不仅可以重塑生物治疗开发,也可以从根本上加速科学过程,推动人们更深入理解自然世界。


首个全流程自动化多Agent系统

据论文介绍,Robin 将多个语言 Agent 整合进结构化工作流,其中 Crow 和 Falcon 负责文献相关任务,Finch 负责实验数据分析。


Crow:负责快速、宽泛的文献检索与摘要,用于在工作流早期为假设生成提供上下文。

Falcon:负责深度文献综述,当 Robin 确定候选药物后,Falcon 会对每个候选生成评估报告,覆盖科学依据、药理特征和文献方法质量等维度。

Finch:负责实验数据分析,它在 Jupyter notebook 环境中动态生成并执行 Python/R 代码,支持流式细胞术和 RNA-seq 等分析流程,并根据输入数据实时生成分析代码,以适应不同数据分布。


Image

图|Robin 的架构与工作流程


在 dAMD 任务中,Crow 先为 Robin 识别出了 10 个潜在疾病机制,并为每个机制匹配体外实验模型;随后,Robin 借助 LLM 评判器和 BTL 模型对方案进行排序,最终选出了最优实验策略,并用流式细胞术评估了药物是否能提升 RPE细胞吞噬能力。


在实验策略确定后,Crow 综合了约 400 篇文献,Robin 提出了 30 个候选治疗化合物,Falcon 则为每个候选生成评估报告。经排序和人工审核后,候选进入湿实验验证,其中湿实验由人类科学家完成,Robin 负责提出实验方向、生成假设并分析返回数据。


Image

图|Robin 提出了多种实验检测方法,并最终决定采用一种增强 RPE 吞噬功能的检测实验


系统验证与对比

为判断排序是否可靠,研究团队把 LLM 评判器给出的候选排序,与人类专家给出的候选排序进行了对照。


结果显示,在前 10 名候选中,LLM 和专家平均有 7.25 项重合,重合度超过随机选择的两倍。在重复两两比较中,LLM 评判器的内部一致性为 88%,高于人类专家的 61%


在数据分析环节,Finch 会将同一份实验数据分配给 8 条独立轨迹分别分析,再由元分析模块汇总为共识结果。研究团队在流式细胞术和 RNA-seq 任务中测试了 Finch。其中,在 RNA-seq 流程中,样本拆分和序列比对仍由人类完成,Finch 主要负责后续差异 表达分析。结果显示,Finch 在流式细胞术和 RNA-seq 任务中对专家评判标准的遵循率分别达到 100%  86%


此外,为评估 Crow 和 Falcon 对结果质量的影响,研究团队还进行了消融实验。结果显示,替换 Falcon,或同时替换 Crow 和 Falcon,都会增加药物候选报告中的“幻觉”参考文献;在 assay proposal 检查中,用 o4-mini 替代 Crow 后,44.5% ± 6.37% 的参考文献被判定为“幻觉”。候选质量评估也表明,替换 Crow、Falcon 或二者,都会降低最终药物提案的整体质量。


Image

图|Crow 和 Falcon 消融实验。


此外,研究团队还将相同候选生成任务提交给 OpenAI Deep Research,要求模型生成 19 个候选,最终得到 17 个独特候选,其中 Resveratrol 和 GW3965 各重复了一次。随后,研究团队在 RPE-SC 吞噬实验中验证这些候选,但无一成为阳性命中;Deep Research 也没有提出通过 ROCK 抑制增强 RPE 吞噬的策略。


Image

图|与 OpenAI Deep Research 的比较。


实验结果

在第一轮实验中,研究团队从 Robin 推荐的候选中选取了 5 个进行测试,包括 Exendin-4、Fingolimod、MFGE8、 Y-27632 和 AICAR+TUDCA 组合,其中 MFGE8 作为阳性对照。


研究团队在 ARPE-19 细胞中加入 pHrodo 荧光珠进行初筛,Finch 对原始流式细胞术数据的分析结果与人工分析一致,说明这轮筛选结果较为可靠。


Image

图|RPE-SC 和 ARPE-19 表达经典 RPE 标志物及吞噬机制相关蛋白


在第一轮结果出来后,Robin 提出应追踪药物处理后 RPE 细胞的转录变化,并建议开展 RNA-seq 分析。随后,Finch 的差异表达分析发现,Y-27632 处理后 ABCA1 表达上调约 3 倍,调整后 p 值为 2.13×10^(-83)。ABCA1 是一种参与胆固醇和磷脂外排的转运蛋白,其脂质受体 ApoE 已在多项研究中被认为与 AMD 的遗传风险相关。这提示 ROCK 抑制可能通过影响脂质代谢或脂质转运相关通路,增强 RPE 的吞噬功能。


Image

图|Finch 基于 8 条 RNA-seq 分析轨迹得到的共识结果,显示有多少比例的分析识别出相同的基因持续上调或下调。


在第二轮实验中,Robin 在 Y-27632 的结果基础提出,ROCK 抑制可能是一条值得深入验证的增强 RPE 吞噬功能路径,考虑到 ripasudil 属于同类 ROCK 抑制剂,且已在日本获批用于青光眼治疗,因此被认为是更具转化潜力的候选药物。


在 ARPE-19 细胞中,ripasudil 将 RPE 吞噬活性提升至 DMSO 对照的 1.89 倍;人工复核得到的提升倍数为 1.75 倍,结果与自动分析基本一致,说明其促吞噬作用可靠存在。进一步的剂量-效应实验显示,ripasudil 的表现优于 Y-27632,因此成为后续验证的重点候选。


Image

图|Finch 流式细胞术分析轨迹的示例。


尽管 ROCK 抑制剂此前已被用于湿性 AMD 和其他视网膜新生血管疾病研究,Robin 首次提出可通过增强 RPE 吞噬功能,将其用于干性 AMD。为验证这一思路,研究团队在原代人类 RPE 干细胞(RPE-SC)中进行了实验,并以荧光标记的牛视杆外段(ROS)替代 pHrodo 珠作为吞噬底物。结果显示,ripasudil 和 Y-27632 在该模型中仍为阳性命中,且 ripasudil 效能更强。


此外,在后续 RPE-SC 的 ripasudil RNA-seq 实验中,ABCA1 上调再次得到复现。另一个值得注意的候选是 KL001。KL001 是一种昼夜节律调节剂,可通过抑制 CRY 蛋白的泛素依赖性降解发挥作用。研究团队指出,此前尚无人提出将 KL001 作为增强 RPE 吞噬功能的候选


Image

图|Y-27632 和 ripasudil 在 RPE-SC 中的细胞毒性检测


不足和未来方向

不过,研究团队也表示,Robin 依然存在很多局限,主要涉及实验规划、数据分析泛化能力和临床验证。


实验规划仍需要人类介入。尽管 Robin 可以提出实验方向和实验框架,但尚不能生成精确、可直接执行的实验操作协议。研究人员仍需将 Robin 的建议转化为实验室标准流程。未来的目标是让 Robin 提供更详细的方法描述,使其只需极少的人类介入即可在实验室中执行。


跨任务泛化能力也有限Finch 的可靠输出依赖领域专家编写的任务级 Prompt,尤其在需要多步骤流水线的生物信息学任务中表现仍不足。研究团队认为,未来如果能让 Finch 自主生成或适配不同数据模态的提示,整个发现流程将变得更加自主。


现有药物发现结果仍停留在体外实验阶段。未来,Ripasudil 和 KL001 是否能真正用于 dAMD 治疗,还需要经过动物模型验证、疾病模型验证,以及随机对照临床试验评估。


内容中包含的图片若涉及版权问题,请及时与我们联系删除