Evolutionary Generation of Multi-Agent Systems

2026年02月06日
  • 简介
    基于大语言模型(LLM)的多智能体系统(MAS)在复杂推理、任务规划及工具增强型任务中展现出强大潜力;然而,设计高效、鲁棒且具备良好泛化能力的MAS架构仍是一项劳动密集型工作,且易受扰动影响、难以迁移。当前已有的自动化MAS生成方法存在明显局限:一类依赖代码生成,往往导致生成系统无法正确执行或鲁棒性不足;另一类则强制采用固定僵化的架构模板,严重限制了系统的表达能力与环境适应性。为此,我们提出“多智能体系统的进化式生成方法”(EvoMAS),将MAS生成建模为一种结构化配置生成任务,并在配置空间内开展进化式搜索。具体而言,EvoMAS首先从初始配置池中选取若干候选配置,继而依据实际执行轨迹所提供的反馈,对配置实施条件化变异(mutation)与交叉(crossover)操作,并在迭代过程中同步优化候选配置池与经验记忆库。我们在多个具有代表性的基准测试集上对EvoMAS进行了全面评估,涵盖BBEH(推理任务)、SWE-Bench(软件工程任务)以及WorkBench(工具调用任务)。实验结果表明,EvoMAS在各项任务性能上均持续超越人工设计的MAS及此前所有自动化MAS生成方法,同时所生成的系统具备更高的可执行性与运行时鲁棒性。相较于现有智能体进化方法EvoAgent,EvoMAS在BBEH推理任务上提升10.5分,在WorkBench任务上提升7.1分;此外,当采用Claude-4.5-Sonnet作为底层大模型时,EvoMAS在SWE-Bench-Verified子集上达到79.1%的准确率,与当前公开排行榜顶尖水平持平。
  • 作者讲解
  • 图表
  • 解决问题
    自动构建高效、鲁棒且可泛化的多智能体系统(MAS)仍面临巨大挑战:现有方法要么依赖易出错的代码生成,导致执行失败率高;要么采用僵化模板,牺牲表达力与任务适应性。这是一个兼具工程实用性与基础方法论意义的新问题——即如何在不手写Agent逻辑的前提下,可靠地‘生成’具备推理、规划与工具调用能力的MAS架构。
  • 关键思路
    提出EvoMAS:将MAS设计转化为结构化配置空间的进化搜索问题,而非代码生成。其核心创新在于——基于真实执行轨迹(execution traces)提供细粒度反馈,驱动配置级的变异(mutation)与交叉(crossover),并协同更新候选池与经验记忆(experience memory),实现可执行性、鲁棒性与性能的联合优化。这是首次将进化算法深度耦合到MAS配置语义空间,并以运行时行为为进化信号。
  • 其它亮点
    在BBEH(复杂推理)、SWE-Bench(真实软件工程修复)、WorkBench(多步骤工具调用)三大基准上全面超越人工设计MAS及先前自动方法;在SWE-Bench-Verified达79.1%(Claude-4.5-Sonnet),持平当前开源榜单第一;显著提升 executability(可执行率)与 runtime robustness(运行时稳定性);未提及其开源状态,但方法设计天然支持离线进化与配置复用;值得深入的方向包括:配置空间的可解释性建模、跨任务迁移进化记忆、与LLM编译器协同的轻量化部署。
  • 相关研究
    EvoAgent(NeurIPS 2023,基于行为克隆+进化优化Agent策略);AutoGen(Microsoft,模板化、规则驱动的MAS框架);MetaGPT(2023,角色驱动的标准化工作流生成);AgentScope(2024,面向可控性的模块化运行时系统);LLM-Agent-Search(ICLR 2024 Spotlight,神经架构搜索风格的Agent拓扑学习)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问