Evolutionary Generation of Multi-Agent Systems

向作者提问

NEW

简介

基于大语言模型（LLM）的多智能体系统（MAS）在复杂推理、任务规划及工具增强型任务中展现出强大潜力；然而，设计高效、鲁棒且具备良好泛化能力的MAS架构仍是一项劳动密集型工作，且易受扰动影响、难以迁移。当前已有的自动化MAS生成方法存在明显局限：一类依赖代码生成，往往导致生成系统无法正确执行或鲁棒性不足；另一类则强制采用固定僵化的架构模板，严重限制了系统的表达能力与环境适应性。为此，我们提出“多智能体系统的进化式生成方法”（EvoMAS），将MAS生成建模为一种结构化配置生成任务，并在配置空间内开展进化式搜索。具体而言，EvoMAS首先从初始配置池中选取若干候选配置，继而依据实际执行轨迹所提供的反馈，对配置实施条件化变异（mutation）与交叉（crossover）操作，并在迭代过程中同步优化候选配置池与经验记忆库。我们在多个具有代表性的基准测试集上对EvoMAS进行了全面评估，涵盖BBEH（推理任务）、SWE-Bench（软件工程任务）以及WorkBench（工具调用任务）。实验结果表明，EvoMAS在各项任务性能上均持续超越人工设计的MAS及此前所有自动化MAS生成方法，同时所生成的系统具备更高的可执行性与运行时鲁棒性。相较于现有智能体进化方法EvoAgent，EvoMAS在BBEH推理任务上提升10.5分，在WorkBench任务上提升7.1分；此外，当采用Claude-4.5-Sonnet作为底层大模型时，EvoMAS在SWE-Bench-Verified子集上达到79.1%的准确率，与当前公开排行榜顶尖水平持平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

自动构建高效、鲁棒且可泛化的多智能体系统（MAS）仍面临巨大挑战：现有方法要么依赖易出错的代码生成，导致执行失败率高；要么采用僵化模板，牺牲表达力与任务适应性。这是一个兼具工程实用性与基础方法论意义的新问题——即如何在不手写Agent逻辑的前提下，可靠地‘生成’具备推理、规划与工具调用能力的MAS架构。
关键思路

提出EvoMAS：将MAS设计转化为结构化配置空间的进化搜索问题，而非代码生成。其核心创新在于——基于真实执行轨迹（execution traces）提供细粒度反馈，驱动配置级的变异（mutation）与交叉（crossover），并协同更新候选池与经验记忆（experience memory），实现可执行性、鲁棒性与性能的联合优化。这是首次将进化算法深度耦合到MAS配置语义空间，并以运行时行为为进化信号。
其它亮点

在BBEH（复杂推理）、SWE-Bench（真实软件工程修复）、WorkBench（多步骤工具调用）三大基准上全面超越人工设计MAS及先前自动方法；在SWE-Bench-Verified达79.1%（Claude-4.5-Sonnet），持平当前开源榜单第一；显著提升 executability（可执行率）与 runtime robustness（运行时稳定性）；未提及其开源状态，但方法设计天然支持离线进化与配置复用；值得深入的方向包括：配置空间的可解释性建模、跨任务迁移进化记忆、与LLM编译器协同的轻量化部署。
相关研究

EvoAgent（NeurIPS 2023，基于行为克隆+进化优化Agent策略）；AutoGen（Microsoft，模板化、规则驱动的MAS框架）；MetaGPT（2023，角色驱动的标准化工作流生成）；AgentScope（2024，面向可控性的模块化运行时系统）；LLM-Agent-Search（ICLR 2024 Spotlight，神经架构搜索风格的Agent拓扑学习）

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问