- 简介大型语言模型正日益被寄予厚望,成为能够与外部、有状态的工具环境进行交互的通用型智能体。模型上下文协议(MCP)以及更广泛的智能体能力框架,为智能体接入可扩展的真实世界服务提供了统一接口;然而,鲁棒智能体的训练仍受限于缺乏逼真的模拟环境,以及缺乏系统化、可延续的终身学习机制。本文提出 **Agent-World**——一个面向通用智能体能力进化的自演化训练场,旨在通过可扩展的多样化环境推动通用智能体智能的发展。Agent-World 包含两大核心组件:(1)**智能体环境—任务发现机制**:该机制能自主探索与主题高度对齐的数据库及可执行工具生态体系,覆盖数千种真实世界环境主题,并据此合成具备可验证性、且难度可控的任务;(2)**持续自演化智能体训练机制**:该机制将多环境强化学习与一个自演化的智能体训练场相结合——该训练场可通过动态任务合成自动识别智能体当前的能力短板,并驱动有针对性的学习过程,从而实现智能体策略与环境本身的协同演化。在涵盖23项高难度智能体评测基准的全面评估中,基于 Agent-World 训练的 8B 和 14B 规模模型,持续超越多个性能强劲的闭源商业模型以及各类环境规模扩展基线方法。进一步分析还揭示了智能体性能随环境多样性提升与自演化轮次增加所呈现的可扩展规律,为构建真正意义上的通用智能体智能提供了重要启示。
-
- 图表
- 解决问题现有大语言模型作为通用智能体(agents)在真实、动态、状态化的工具环境中缺乏足够鲁棒、可扩展且持续进化的训练范式;核心瓶颈在于缺乏大规模、多样化、可验证的现实环境与任务供给,以及缺乏支持能力驱动、闭环反馈的终身学习机制。
- 关键思路提出Agent-World——一个自演化的智能体训练竞技场:(1)通过主题对齐的数据库与可执行工具生态自动发现并合成可验证、难度可控的任务(Agentic Environment-Task Discovery);(2)构建多环境强化学习与动态能力诊断耦合的闭环,实现代理策略与环境复杂度的协同进化(Continuous Self-Evolving Agent Training)。其创新在于将环境生成、任务合成与能力评估统一为可扩展、自动化、目标导向的自我演化过程,而非静态预设。
- 其它亮点在23个具挑战性的智能体基准(含WebShop、Mind2Web、Aider、SWE-bench等)上,Agent-World-8B/14B显著超越GPT-4o、Claude-3.5-Sonnet及环境缩放基线;实验设计包含跨领域环境多样性分析、自演化轮次消融与能力缺口定位可视化;论文未明确声明开源代码,但强调所有合成任务均具备可验证性(deterministic execution + ground-truth validation);值得深入的方向包括:环境演化策略的形式化建模、跨任务能力迁移的神经符号接口、以及面向安全关键场景的可控演化边界约束。
- LLM-Agent Bench (ICLR'24); Tool Learning Benchmark (NeurIPS'23); WebArena (ACL'23); SWE-bench (ICML'24); Voyager: An Open-Ended Embodied Agent (arXiv:2305.16291); ARES: Adaptive Reinforcement Learning for LLM Agents (NeurIPS'24); AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation (arXiv:2308.08155)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流