生物医学数据的快速扩张催生了对高效生物信息学工具的需求,然而传统工作流程严重依赖人工操作,阻碍了可扩展性和更广泛的应用。2026年1月7日,PromptBio团队在bioRxiv上发表题为“ToolsGenie 2.0: A Scalable and Extensible Multi-Agent System for  Bioinformatics Automation”的文章。在ToolsGenie 1.0的基础上,研究团队推出一个多智能体AI框架ToolsGenie 2.0,能够通过自然语言查询和文件输入来自动化生物信息学分析。ToolsGenie 2.0已在PromptBio平台(platform.promptbio.ai)上提供。

背景

随着新一代测序、蛋白质组学和代谢组学等高通量技术的进步,生物医学领域的数据生成量呈指数级增长。生物数据的激增需要复杂的生物信息学分析来提取有意义的见解,从而推动疾病理解、药物发现和个性化医疗的突破。然而,传统的生物信息学工作流程往往严重依赖人工干预,需要领域专家选择合适的工具、配置参数、管理计算环境并排查错误。这种对人类专业知识的依赖不仅引入了可扩展性和可重复性的瓶颈,也加剧了非专业人员面临的挑战,导致效率低下、错误率升高并阻碍了在资源有限环境中的广泛采用。

为了弥合这一差距,一些基于大语言模型和智能体的系统应运而生,旨在自动化生物信息学工作流程的部分环节。通用型生物信息学智能体代表包括Biomni、STELLA;领域或任务特定的代码执行智能体包括CellAgent、DrBioRight。尽管这些智能体可以显著减少人工操作,但它们通常在实现操作灵活性和可靠性方面存在不足。例如,它们经常面临与广泛工具库兼容性的限制,并依赖于僵化、预定义的设置,无法适应生物信息学分析的动态需求,在这些分析中,新软件的集成可能与现有配置冲突。此外,多智能体设计增强了模块化,但也引入了更高的系统复杂性,使得在长时间交互过程中记忆和状态管理变得脆弱,并增加了出错风险。同样,虽然ReAct架构促进了更具人文关怀的对话式交互,但它常常产生冗长的上下文,可能模糊用户意图并阻碍准确完成分析。此外,对输入、输出和中间文件缺乏充分的验证机制进一步加剧了这些问题,导致执行失败或结果不可靠,尤其是在处理异构文件格式和数据结构或数据量较大时。而且这些智能体通常达不到工业级标准,特别是在安全性和数据完整性方面,因为生成的代码通常在与推理智能体相同的环境中执行,同时在成本管理、资源控制和可重复性保证方面也有限,这些因素阻碍了可扩展的、生产级别的部署。

ToolsGenie 2.0框架

ToolsGenie 2.0的总体架构如图1所示。核心监督智能体基于ReAct架构,处理用户对话和输入文件,以创建高层次的分析计划。该计划通过选择性调用专门的子智能体来执行,包括ExecutorAgent(负责自主处理特定任务的代码生成、执行和调试)、KnowledgeAgent(用于网络和文献检索)以及ReferenceAgent(用于检索标准化公共资源)。该框架通过添加用于特定领域或实用任务的子智能体以及集成外部工具来提供可扩展性,从而便于适应各种生物信息学场景。每一轮的输出会作为后续轮的输入重复使用,通过用户审查、指导和纠正,实现多轮、人在回路的迭代分析。

图1 ToolsGenie 2.0概览

生物信息学分析中的一个主要挑战在于软件和环境配置,静态或预配置的设置常常因依赖冲突而失败,特别是当基础安装中缺少所需工具时。为了解决这个问题,ToolsGenie 2.0在规划阶段分解任务,并在调用ExecutorAgent时从容器仓库(如Docker Hub、Quay.io和Wave)中动态选择并部署合适的Docker镜像。这种策略避免了安装瓶颈,同时利用容器沙箱确保执行隔离、增强数据安全性、进行细粒度权限控制,并防止主机系统漏洞。

为了支持可扩展性,ExecutorAgent采用基于LangGraph的标准化执行接口,简化了分析过程中的工具管理和调用。这种设计能够无缝集成来自Biomni和STELLA等平台的大型、专业化工具生态系统,使ToolsGenie 2.0能够随着生物信息学方法的发展而整合新的分析工具和工作流程。除了执行层面,ToolsGenie 2.0还整合了知识和资源感知型智能体,以丰富分析上下文并促进标准化数据访问。KnowledgeAgent支持基于互联网的查询,包括网页内容检索和学术文献搜索,允许系统在分析过程中融入外部上下文信息。

ToolsGenie 2.0框架的一个关键赋能组件是其上下文记忆管理系统,该系统调节跨智能体的信息流并支持多轮交互。监督智能体为任务级上下文维护一个专用的记忆分支,包括用户交互、对话历史、高层计划更新以及子智能体调用。特定任务的工件,例如文件元数据、中间结果、已执行代码和配置参数,则单独存储在一个共享的LangGraph状态中。子智能体仅能访问其操作所需的信息,并返回必要的输出更新共享状态,以供后续步骤使用。

结果


Docker镜像选择机制


作者在10个需要第三方软件或库(包括R包、Python包和shell命令行工具)的具有代表性的常见生物信息学任务上对其进行了评估。这些任务包含了基因组学分析中最常用的四个步骤和转录组学分析中最常用的四个步骤,以及一个典型的序列处理任务和一个机器学习任务,特别选取这些任务是为了反映需要手动安装和配置第三方软件及库的现实场景。对于每个任务,比较了启用Docker镜像选择的ToolsGenie 2.0与依赖通用基础镜像的基线配置的性能。鉴于任务相对简单,采用GPT-4.1模型进行分析,每个任务重复三次以考虑变异性。所选任务的详细信息见表1。

表1 10个需要第三方软件/库的代表性生物信息学任务

结果表明Docker镜像选择机制显著提高了成功率和效率。在10个任务中,ToolsGenie 2.0的平均成功率达到83.3%,基线为56.7%(图2A)。值得注意的是,在任务Q5中观察到一个例外情况,即使用Docker镜像选择获得的准确率低于基线。经人工检查,这个差异可追溯到LLM偶尔的代码生成错误,在该特定运行中生成了不正确的DESeq2分析脚本,而非基于Docker的执行环境本身的问题。这种变异性源于LLM输出固有的非确定性,而非工作流程本身的可重复性问题:在相同的Docker配置下对任务Q5进行后续三次重复执行时,该错误未再出现,并获得了正确结果。尽管这一孤立差异在单个案例中影响了任务准确性,但效率提升尤为显著:使用Docker选择的平均执行时间为每任务257.3秒,而基线为913.0秒,时间的减少主要归因于消除了安装延迟(图2B)。

图2 Docker镜像选择机制的性能比较


子智能体与专用工具能力


首先,评估了ReferenceAgent对需要参考基因组或注释资源的任务的影响。选取了一个代表性任务:RNA-seq数据比对,这需要准确检索或构建大型参考文件。对于涉及小鼠样本的分析,启用ReferenceAgent使得ToolsGenie 2.0能够从AWS iGenomes自主获取正确的参考数据,并将其无缝整合到下游工作流程中。当ReferenceAgent被禁用时,ToolsGenie 2.0只能通过KnowledgeAgent或ExecutorAgent下载必要的参考文件,然后直接从FASTA文件构建STAR索引。这不仅大大延长了分析时间和成本,而且还增加了错误风险:LLM提供的下载URL通常不正确,而网络搜索也可能遇到可靠性问题。

接下来,检验了其在集成外部精选工具集后的表现。以Biomni工具包作为案例研究,测试了ToolsGenie 2.0预测化合物CC(C)CC1=CC=C(C=C1)C(C)C(=O)O的ADMET性质的能力。在无法访问特定领域工具的情况下,基线系统难以完成分析,包括错误地调用非命令行工具、尝试直接通过网络搜索寻找答案,甚至当利用RDKit软件获取结果时,产生的输出格式和内容也不一致,可能遗漏重要信息。相比之下,在集成Biomni工具包模块后,ToolsGenie 2.0成功且一致地完成了任务,即使在不同模型(如GPT-4.1和Claude-4-Sonnet)之间也能保持输出的一致性,从而确保了正确且可重复的输出,可在生产环境中可靠应用。这些发现表明ToolsGenie 2.0的工具集成促进了复杂的、特定领域的工作流程,这些对于通用智能体来说是不可行的,并且随着新工具的出现,能够持续扩展其工具生态系统。


ToolsGenie 2.0的性能评估


与当前最先进的生物信息学智能体Biomni进行了比较,使用了内部数据集和公开BixBench数据集。在内部数据集上,ToolsGenie 2.0的准确率达到68.6%,超过了Biomni的60.0%(图3A)。这一提升主要源于ToolsGenie 2.0的Docker镜像选择机制,该机制使得众多Biomni无法安装或利用的生物信息学工具得以成功执行。在此数据集上,两个智能体的平均成本相当(图3B),表明准确率的提升并未带来额外的成本开销。

图3 ToolsGenie 2.0与Biomni的性能比较

在BixBench数据集上,ToolsGenie 2.0的准确率为略低于Biomni(图3A)。为了确定这种性能差异的主要原因,对Biomni回答正确而ToolsGenie 2.0回答错误的33个案例进行了事后分析。这些错误主要源于大规模文件检查过程中的信息丢失以及智能体间的信息传递问题,而非工具执行或分析推理的缺陷。相比之下,Biomni的单智能体方法在单次交互中保持了信息的连贯性,这可能解释了它能正确回答这些案例的原因。从成本角度来看,在BixBench数据集上,ToolsGenie 2.0的平均推理成本始终低于Biomni(图3B)。这一观察结果表明尽管在极端输入规模条件下准确率有所下降,但ToolsGenie 2.0在系统层面仍保持了良好的成本。

总结

这项工作提出了ToolsGenie 2.0,一个旨在应对生物信息学分析复杂性的多智能体框架。该系统通过模块化可扩展性,能够快速原型化解决方案,具有广泛的分析覆盖面、准确性和可重复性。实验评估表明ToolsGenie 2.0与现有框架(如Biomni)性能相当,而且为实际部署提供了可扩展的、工程化的特性。在实际的生物信息学环境中,ToolsGenie 2.0展现出强大的潜力,但在处理大规模数据和输入可变性方面面临限制。LLM生成的代码在效率和稳定性方面也带来了额外的挑战。此外,当前的基准测试虽然很有价值,但往往忽视了现实世界的复杂性,例如嘈杂数据或迭代的用户优化。作者主张开发更具生态有效性的基准测试,模拟真实的研究场景,结合多轮对话和异构输入,以更好地评估智能体的实用性。

参考链接:

https://doi.org/10.64898/2026.01.06.697527

--------- End ---------

内容中包含的图片若涉及版权问题,请及时与我们联系删除