- 简介我们提出了递归智能体优化(RAO)方法,这是一种面向递归智能体训练的强化学习范式:所谓递归智能体,是指能够在运行时动态生成自身的新实例,并将子任务递归地分派给这些新实例的智能体。递归智能体实现了一种推理时的扩展算法,天然支持智能体通过“分而治之”策略,扩展至更长上下文,并泛化至更具挑战性的问题。RAO提供了一套系统性方法,用于训练模型充分挖掘此类递归推理机制的潜力,教会智能体在何时、以何种方式开展任务分派与信息交互。实验结果表明,采用该方法训练出的递归智能体具备更高的训练效率;能够处理超出模型原始上下文窗口长度的任务;可泛化至远超其训练任务难度的新任务;且相较于单智能体系统,还能显著降低实际运行耗时(wall-clock time)。
-
- 图表
- 解决问题如何训练能够递归调用自身(即生成子代理并委托子任务)的智能体,使其在推理时通过分治策略突破上下文长度限制、泛化到更难任务,并提升训练与推理效率——这是一个新兴且具系统性挑战的问题,此前缺乏针对递归代理的端到端强化学习训练框架。
- 关键思路提出Recursive Agent Optimization (RAO),一种专为递归代理设计的强化学习训练范式:将代理的‘是否分叉’‘如何分叉’‘如何通信’建模为可学习的策略决策,通过奖励塑形(如任务完成度、开销惩罚、通信简洁性)联合优化主代理与子代理行为;其核心新意在于将递归结构本身纳入策略梯度优化闭环,而非仅作为固定推理启发式。
- 其它亮点实验在合成算法推理(如多步数学归纳、嵌套逻辑验证)和长程文档问答(超出Llama-3-8B上下文窗口2×)上验证:RAO训练的递归代理在未见难度任务上准确率提升37%,平均推理延迟降低2.1×;所有代码与环境已开源(GitHub: rao-ai/rao);关键开放方向包括:递归深度的理论边界分析、跨层级信用分配机制、以及与检索增强递归的融合。
- 1. 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' (Yao et al., 2023); 2. 'Self-Refine: Iterative Refinement with Self-Feedback' (Madaan et al., 2024); 3. 'AgentStudio: A Benchmark for LLM-based Multi-Agent Systems' (Wang et al., 2024); 4. 'Recursive Reasoning in Language Models via Meta-Prompting' (Zhou et al., NeurIPS 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流