传统药物研发高度依赖成本高昂、周期冗长的湿实验流程。AI驱动的系统通过先进的计算方法,有望显著加速这一过程并提升效率。当前研究多聚焦于开发预测模型以辅助决策,减少实验负担,而更具前瞻性的方向是构建能够自主设计模型、进行文献综述、选择实验路径并在整个药物研发流程中做出战略决策的AI智能体系统。
尽管目前对科学推理与实验的智能体系统越来越关注,但专门面向药物发现任务的智能体基准测试仍然稀缺。现有基准多数仅评估某一类预测能力,难以衡量系统的自主决策、代码生成或自动执行能力;而另一些面向自主能力的通用基准则缺乏药物研发相关背景知识的支持。
2025年4月28日,Deep Origin团队在arXiv上发表题为《Can AI Agents Design and Implement Drug Discovery Pipelines?》的论文,提出DO Challenge基准,用于评估AI智能体系统在复杂决策任务中的综合能力。该任务模拟虚拟筛选情景,要求系统在受限计算资源下,自主开发、实施并执行高效策略,以从百万级分子结构中识别出潜力化合物,并在多目标权衡下探索化学空间、选择建模方法并合理分配资源。

背景
随着大型语言模型(LLMs)驱动的自主智能体系统发展迅猛,其在药物发现中的应用潜力备受关注,有望显著降低研发成本、缩短周期并提高成功率。然而,评估这类系统的标准化基准仍明显滞后。已有如Therapeutics Data Commons(TDC)、DrugOOD与CARA等基准涵盖了从靶点识别到泛化预测的关键任务,但多数将这些任务割裂,未能评估真正智能体所需的综合能力。类似地,GuacaMol、MoleculeNet与MolGym等专注于分子设计或性质预测的单项能力,而缺乏对整个流程的综合反映。总的来说,尽管这些基准已取得重要进展,并在评估具体能力方面具有价值,但它们仍多聚焦于孤立任务或单项技能,难以真实反映药物发现中智能体需面对的复杂现实,如资源受限、标注成本高、多目标优化等。
本研究围绕药物发现中AI自主智能体系统的发展潜力,提出了DO Challenge基准,用于评估AI系统在模拟虚拟筛选场景中的综合能力。与传统基准不同,该挑战要求智能体在资源受限条件下独立制定并执行策略,探索化学空间、选择模型、管理资源,以识别最优分子结构。此外,还详细报告了由多个大语言模型组成的通用智能体系统Deep Thought,其在限时测试中表现与人类专家相当(33.5% vs 33.6%),远超普通人类队伍(16.4%)。
本研究的三项主要贡献包括:
1)提出新基准:要求AI智能体从包含一百万个分子的化合物库中识别出最具潜力的候选分子。为此,智能体必须自主制定并执行策略,包括探索化学空间、选择预测模型、平衡多个目标以及管理有限资源,这一过程模拟了药物研发中复杂、受限的决策环境。
2)展示强大系统:构建了多智能体系统Deep Thought,在基准测试中表现优异,并通过消融研究分析了不同语言模型在各种角色中的表现。
3)人机对比评估:对比了该系统与人类参赛队伍及专家解决方案的表现,揭示了AI与人类在药物发现任务中的相对优势、劣势与策略特点。
DO Challenge基准任务
该基准测试通过模拟虚拟筛选任务,系统性评估AI系统在分子筛选效率提升中的综合能力。智能体需承担高层决策,并通过编程、运行与调试等方式将策略执行落地,以模拟计算药物发现中端到端自动化的实际需求。
基准任务基于一个包含100万个独特分子构象的固定数据集,每个构象配有一个标签DO Score,表示其作为药物候选分子的潜力。所有参与评估的AI系统使用相同的数据集。任务目标是从中识别出DO Score最高的Top 1k个分子结构。初始数据集中不包含DO Score标签。智能体最多可请求对10万个结构进行DO Score标注,需自行决定哪些分子去标注,可一次性请求,也可分批。最终,智能体需提交3000个最有潜力的结构用于评估。评估指标为预测与真实Top 1k结构的重叠程度。智能体最多有3次提交机会,每次提交后只获得得分反馈,不提供哪些结构正确的信息,最终得分取三次中的最高值。为确保任务复杂度,任务说明中未提供任何靶点蛋白信息,选择完全依赖于分子本身。
Deep Thought智能体系统
Deep Thought是一个模块化的多智能体系统,设计用于自主执行复杂任务,涉及软件工程、机器学习、系统架构和科学研究等领域。在此,介绍四种关键的智能体组件。
1)Software Engineer智能体组。负责全流程代码开发,包括任务规划、代码探索、实现与评审等阶段。
2)Installer&Evaluation智能体组。评估智能体用于创建独立虚拟环境、识别依赖、运行代码、分析错误并提供优化建议。安装智能体则负责在虚拟环境中安装依赖、修复语法问题、处理版本冲突。
3)Scientist智能体(可选)。负责处理用户初始问题,并制定供其他智能体执行的行动计划。
4)Research智能体组。搜索并收集相关材料,提取关键信息,并根据任务相关性对其排序。

图1 Deep Thought架构
实验设置
实验1:DO Challenge
三类被评估对象包括:20支人类团队参赛DO Challenge 2025;Deep Thought智能体系统,包含不同LLM组合;两位具备领域知识的人类专家。
实验设置两个简单基线:
Baseline 1:随机选择10万个分子,提交其中DO Score值最高的3000个;然后保留与真实Top 1k重叠的分子,在第二轮中用新的随机样本补足;
Baseline 2:在基线1的基础上,第二轮不再随机选择,而是优先选择与第一轮命中分子在结构上相似(通过指纹Tanimoto相似度度量)的未标注分子。
基准测试在三种设置下进行:限时10小时,模拟实际挑战;无限时,探索性能上限;赛后扩展,评估解除时间限制后效果变化。
实验2:Deep Thought效率及稳定性测试
以Software Engineer智能体使用Claude 3.7 Sonnet,Reviewer智能体使用GPT-4o的组合作为系统的默认配置(Deep Thought cfg-4)。为了更好地理解不同LLM在效率与稳定性方面的差异,作者对比了表现最好的几种Deep Thought配置在整体运行时间和使用的LLM token数量,主代理分别为Claude 3.7 Sonnet、Gemini 2.5 Pro和o3的版本。
结果及分析
DO Challenge实验结果
在不同设置下的实验结果排名如下,三种设置分别对应表1,2和3。结合任务特性与领域知识,作者识别出与本次挑战任务中高性能相关的四个主要因素,对应表格的后四列:
1)结构选择策略性:采用更先进的结构选择方法,如主动学习、聚类或基于相似性的筛选。
2)空间-关系神经网络:使用如图神经网络、注意力机制架构、三维卷积神经网络或其变体等,专门捕捉分子构象中的空间关系和结构信息。
3)位置非不变性建模:使用对结构位置(平移与旋转)非不变性的特征。值得注意的是,任务说明中明确指出DO Score对原子位置变化敏感,但并非所有解法都充分考虑了这一点。
4)策略性提交:结合真实标签与模型预测进行智能组合,利用最多三次提交机会,并用前次结果优化后续提交。
表1 限时10小时设置下DO Challenge排行榜

表2 无限时设置下DO Challenge Top15排行榜

就AI与人类表现而言,限时条件下,人类专家表现最佳,其次是使用OpenAI o3模型为主代理的Deep Thought配置(cfg-10)。其他在该设置中表现优异的配置还包括使用Claude 3.7 Sonnet(cfg-1,cfg-4)和Gemini 2.5 Pro作为主代理的Deep Thought组合(cfg-2,cfg-3);无限时设置中,人类专家领先更明显,Deep Thought(cfg-10,主模型为o3)居第三;赛后扩展设置中,Deep Thought(cfg-6,主模型为Gemini 2.5 Pro)取得了最佳成绩,但该设置中未有人类专家提供对照结果,且其表现仍落后于专家在更严格条件下取得的结果。
表3 挑战赛后扩展结果

在正式竞赛后,主办方开放为期一周的可选扩展阶段,旨在评估解除时间限制后对方案质量的影响。来自主赛的8支队伍自愿参与,5支被选中,其中3支队伍按时提交了扩展方案,其中2支队伍在扩展阶段表现优于主赛阶段。Deep Thought系列的智能体也参与了这一阶段,得分显著提升。
Deep Thought效率及稳定性结果
系统默认配置(Deep Thought cfg-4)在基准测试中五次独立运行的表现见表4。
表4 Deep Thought cfg-4五次独立运行结果

以三种不同LLM分别作为主代理的Deep Thought在整体运行时间和使用的LLM token数量差异如图2所示。三个版本均为高性能配置,展示了不同配置的表现趋势和波动情况。

图2 不同Deep Thought配置下整体运行时间与使用LLM token数
Deep Thought消融结果
1)Software Engineer智能体组
在Software Engineer位置测试了多个大语言模型,Reviewer保持为GPT-4o。结果如表5所示,o3,Claude 3.7 Sonnet,Gemini 2.5 Pro这三者均显著优于其他模型。o3在有时间限制与无限制设定中均达到了最高成绩。较小模型如Claude 3.5 Haiku完全失败,无法产出可运行代码。
表5 不同Software Engineer选择对DO challenge性能的影响

测试了移除不同子代理对系统性能的影响,其中包括1)无Reviewer与ML Engineer; 2)无ML Engineer;3)无Reviewer;4)完整配置(表6)。结果表明仅保留Software Engineer的配置平均分最低,增加Reviewer或ML Engineer都能提升性能,但三者共存反而导致分数下降,说明三者之间可能存在交互冲突或效率损失。
表6 Software Engineer多智能体内部组件消融实验结果

2)Research智能体组
Research智能体组作为工具供Software Engineer智能体组使用。当主代理为Claude 3.7 Sonnet、Gemini 2.5 Pro或o1时,它从未调用Research组,而主代理为GPT-4o时经常调用Research组以查阅网络内容,但整体表现也未见提升。作者进一步分析了Research组的输出与Software Engineer模型自行生成的方案,发现两者方法几乎一致,且后者已能覆盖前者思路。尽管如此,作者仍将Research组作为可选工具保留,用于更复杂任务。
3)Scientist智能体
作者测试了在有或无Scientist智能体下系统的表现(表7)。结果表明在没有Scientist时表现更好,但Scientist能够提出可行但复杂的方法,因缺乏超参数调优而表现不佳。若加以调优,这些复杂方法有望超过不用Scientist的简单集成算法。同时,Scientist也帮助系统更好地设计利用三次提交机会的整体策略。
表7 有无Scientist对DO challenge性能的影响

失败模式分析
作者分析智能体效果不佳的失败模式有如下几种:1)忽视对位置变化敏感的建模要求,错误选择不变或等变特征;2)未有效使用可用工具;3)生成了解决方案却未提交;4)未能有效利用多次提交机会;5)智能体间缺乏协作;6)未能识别资源耗尽;7)陷入无休止的调试循环;8)深度学习方法使用稀少且效果差;9)在资源耗尽前未进行模型验证与超参数调优。
总结
本研究提出DO Challenge,一个面向AI智能体的虚拟筛选基准任务,旨在评估其在药物发现中的综合能力。通过模拟现实研发流程,挑战AI系统在有限资源下自主开发、决策和执行策略。作者还构建并评估了Deep Thought多智能体系统,在限时挑战中表现优于多数人类队伍,并分析了各大模型在系统中扮演不同角色的优劣。
尽管仍不敌专家表现,该系统展现出AI智能体在药物发现流程中的应用潜力。未来工作将聚焦于进一步优化Deep Thought,解决当前识别出的失败模式,并在更具现实意义的任务场景中验证其可行性,加速迈向AI助力科学发现的新时代。
参考链接:
https://arxiv.org/abs/2504.19912
--------- End ---------
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢