2026年3月,阿斯利康的研究团队在《Drug Discovery Today》发表综述文章,题为“Democratising real-world drug discovery through agentic AI”。文章系统介绍了阿斯利康内部智能体系统ChatInvent的开发与落地实践,展示了大语言模型驱动的Agentic AI如何真正进入药物发现生产流程,并围绕系统架构、测试评估、用户交互、长期运维以及组织治理等方面展开深入讨论。

背景

药物发现本质上是围绕“设计—合成—测试—分析”(DMTA)循环展开的多学科协同过程。研究人员需要不断设计候选分子,通过化学合成获得化合物,完成生物实验测试,并根据实验结果继续优化下一轮设计。过去十年中,深度学习和人工智能逐渐融入DMTA流程,在分子生成、性质预测、虚拟筛选和反应规划等领域发挥越来越重要的作用。

随着大语言模型(LLM)的兴起,研究者发现其不仅能够完成文本生成,还能够理解化学知识、分析化学结构、提取文献信息,甚至规划实验步骤。当LLM进一步与外部工具、数据库和自动化平台连接后,就形成了智能体系统。这类系统不仅能回答问题,还能够自主规划任务、调用工具并根据结果调整后续行为。

Agentic AI在药物发现中的意义,并不仅仅是“更聪明的聊天机器人”,而是有机会“民主化”药物发现中的高级计算工具。许多专业药物设计平台长期以来依赖计算化学专家操作,例如结构基础分子生成工具通常需要预处理蛋白结构、配置参数文件并不断迭代调参。对于实验科学家而言,这些工具使用门槛极高。自然语言驱动的智能体系统则有机会将这些复杂流程隐藏在后台,使普通研究人员也能直接调用高级AI工具。

文章回顾了近年来多个代表性系统,包括Chemcrow、CoScientist、LLM-RDF、Cactus、DrugAgent、SynAsk和ChatChemTS等。这些研究已经证明LLM可以协助化学研究、反应开发和分子设计,但此前缺乏真正关于“如何将这些系统部署到真实制药环境”的公开经验。阿斯利康团队正是在这样的背景下开发了ChatInvent,希望探索智能体系统在真实药物发现环境中的可行性与工程化路径。

智能体框架的开发


聚焦分子设计的单智能体原型


受到Chemcrow和CoScientist等早期工作的启发,研究团队首先开发了一个名为LangDMTA的概念验证(PoC)系统,用于验证LLM是否能够协调真实药物设计流程中的复杂操作。与文献中一些相对简单的自动化任务不同,阿斯利康内部的药物设计流程需要处理大量复杂逻辑,包括配置文件准备、数据库调用、性质预测、候选化合物排序以及合成可行性评估等。

系统开发初期,团队曾考虑从零开始构建智能体框架,但最终选择基于LangChain进行扩展。团队测试了ReAct与Structured Chat两类LangChain结构。结果发现,ReAct在化学任务中更容易出现参数格式错误、输入类型不匹配等问题,而Structured Chat表现更加稳定,因此最终被采用。

LangDMTA最初采用单智能体架构,并集成了多个药物发现核心平台,包括REINVENT4中的Mol2Mol用于分子生成与评分,AiZynthFinder用于逆合成规划,Precedent Finder用于相似反应搜索,PIP(Predictive Insight Platform)用于性质预测,以及内部数据API用于化合物信息检索。此外,系统还包含SMILES转换工具和用于CSV数据处理的Analyzer智能体。为了提升交互体验,团队加入了会话记忆功能,使用户能够连续追问并保留上下文。

图1 ChatInvent智能体系统整体架构


多智能体重构


随着系统功能不断扩展,单智能体架构逐渐暴露出明显问题。所有提示、上下文和工具调用都由同一个智能体统一管理,导致上下文不断膨胀,token消耗迅速增加,也使任务路由与决策变得不稳定。团队最终转向多智能体架构,并基于LangGraph重新实现系统。新的系统由一个监督智能体作为统一入口。当用户提交请求后,监督智能体首先判断任务应由哪个专业智能体执行,然后将复杂请求拆解为多个子任务并分发。

系统中的主要子智能体包括:1)Design智能体:负责分子生成和性质评分;2)Synthesis智能体:负责逆合成分析与反应搜索;3)Utility智能体:负责SMILES验证与化合物名称转换;4)Analyzer智能体:负责数据处理与分析。监督智能体会先生成明确、范围受限的任务描述,再交由子智能体执行,从而显著提高系统稳定性。

图2 单智能体与多智能体架构对比


常见问题


论文详细总结了开发过程中出现的典型错误及解决方法,这部分内容极具工程实践价值。例如,智能体有时会直接尝试推理化学结构,而不是调用专业工具。解决方法是通过提示词强制规定,所有化学操作必须调用指定工具完成。在早期ReAct架构中,智能体无法正确处理列表或字典类型参数,因此团队切换到Structured Chat并升级至GPT-4 Turbo。还有一些问题随着模型升级自动消失。例如“Could not parse LLM output”错误在升级GPT-4o后明显减少。多智能体架构中还出现了SMILES截断、文件路径被修改、监督智能体返回不完整结果等问题。团队通过优化消息流、扩展消息schema以及强化提示词规则逐步解决这些问题。即使经过大量优化,随着系统规模扩大,智能体偶发性异常行为仍然存在,这也意味着多智能体系统设计和信息流管理仍有大量研究空间。

表1 智能体开发中的典型错误与解决方案

智能体性能测试与评估

团队引入LangFuse作为智能体测试与追踪平台。LangFuse能够记录每一步工具调用、参数输入、执行路径以及最终输出,并支持“LLM as a judge”模式,即让另一个LLM评估智能体输出是否正确。研究人员建立了一套包含33个问题的自动测试集,用于覆盖典型用户任务。这些问题分为两类。第一类是工具级任务,例如查询布洛芬SMILES、计算氢键供体与受体数量、筛选CSV中的分子数据。第二类是工作流级任务,例如生成与某药物相似但logD更低的分子、结合形状相似性筛选候选分子、生成候选分子后进一步规划合成路线。为了避免外部服务运行时间影响测试,团队还使用mock工具返回预计算结果,从而提高测试稳定性和重复性。

表2 自动化测试问题示例

团队使用33个问题对单智能体和多智能体架构进行系统比较,每个问题重复执行三次,以减少LLM随机性的影响。评估指标包括响应时间、token消耗、工具调用错误率以及工具调用序列正确性。结果显示,多智能体系统在响应速度和token使用方面明显优于单智能体。同时,多智能体能够完成更多完整工具调用序列,说明其更适合复杂工作流。不过,多智能体系统的工具调用错误率略高。这主要与LLM在解释复杂字典schema时仍存在困难有关。但研究人员发现,多智能体系统通常能够自我纠错并最终返回正确答案。因此,多智能体虽然更适合复杂、模块化和企业级任务,但同时也对消息传递机制提出了更高要求。

图3 单智能体与多智能体性能基准比较

面向智能体药物发现的聊天界面

团队开发了ChatInvent网页应用,而不仅仅停留在命令行或Python接口。用户进入系统后,可以看到示例问题、功能说明和系统限制。用户既可以直接输入自然语言问题,也可以上传文件或使用分子绘图画布绘制结构。系统生成分子后,会以结构图形式展示结果,并允许用户复制SMILES或重新加载到画布中进一步修改。对于批量任务,系统还能返回CSV等可下载文件。与普通聊天机器人不同,ChatInvent特别强调推理过程透明化。系统会实时展示智能体当前调用了哪些工具、输入了哪些参数以及执行顺序如何。这种设计有助于研究人员判断系统是否正确理解问题,从而提升用户信任。界面还集成了用户反馈机制,用户可以点赞、点踩或提交评论。这些反馈会与LangFuse联动,用于后续调试与系统优化。

图4 ChatInvent网页界面与示例工作流

讨论与经验总结

通过MCP实现未来兼容性。ChatInvent当前依赖REINVENT、AiZynthFinder和PIP等成熟平台,但这些工具仍通过定制客户端代码接入。未来采用MCP等标准协议后,可以进一步降低系统耦合度并提高扩展性。团队已经开始测试RDKit MCP服务器,未来更多工具可能通过MCP统一接入。

长对话中的智能体记忆。系统目前仍难以处理超长复杂对话。尤其是在用户持续迭代优化分子时,如何在多个子智能体间正确传递上下文记忆仍是重大挑战。团队正在研究新的记忆筛选与上下文管理机制,以提升长期会话中的稳定性。

框架与LLM升级。Agentic AI领域变化极快。ChatInvent在开发过程中经历了GPT-3.5、GPT-4、GPT-4o等多次升级,并计划迁移到GPT-5。每次模型升级都需要至少一周提示词调优与系统评估。LangChain和LangGraph接口变化也可能影响部署稳定性。未来生产级系统可能会逐步转向AWS Bedrock等serverless架构,或者采用内部智能体与云服务结合的混合模式。

长期运营挑战。Agentic AI高速发展的另一面,是当前LLMOps生态仍远未成熟。技术快速迭代意味着系统维护复杂度极高。只有当智能体协议、运维框架和模型接口逐渐稳定后,Agentic AI才更有可能真正大规模进入生产环境。

变革管理与治理。Agentic AI的广泛应用不仅是技术问题,也涉及组织结构和研发范式转变。过去五十年,计算机辅助药物设计高度依赖专业计算团队,而自然语言驱动的Agentic AI则意味着更多实验科学家能够直接使用高级AI工具。与此同时,系统治理的重要性也在快速提升。企业需要建立完善的验证、审查和记录机制,以避免智能体误用,并确保所有输出都可追踪、可验证和可审计。

参考链接:

He, Jiazhen, Helen Lai, Lakshidaa Saigiridharan, Gian Marco Ghiandoni, Kinga Jenei, Umur Gokalp, Ajsa Nukovic, Ola Engkvist, Jon Paul Janet, and Samuel Genheden. "Democratising real-world drug discovery through agentic AI." Drug Discovery Today (2026): 104605.

https://doi.org/10.1016/j.drudis.2026.104605

--------- End ---------

内容中包含的图片若涉及版权问题,请及时与我们联系删除