Recursive Agent Optimization - 智源社区论文

向作者提问

NEW

简介

我们提出了递归智能体优化（RAO）方法，这是一种面向递归智能体训练的强化学习范式：所谓递归智能体，是指能够在运行时动态生成自身的新实例，并将子任务递归地分派给这些新实例的智能体。递归智能体实现了一种推理时的扩展算法，天然支持智能体通过“分而治之”策略，扩展至更长上下文，并泛化至更具挑战性的问题。RAO提供了一套系统性方法，用于训练模型充分挖掘此类递归推理机制的潜力，教会智能体在何时、以何种方式开展任务分派与信息交互。实验结果表明，采用该方法训练出的递归智能体具备更高的训练效率；能够处理超出模型原始上下文窗口长度的任务；可泛化至远超其训练任务难度的新任务；且相较于单智能体系统，还能显著降低实际运行耗时（wall-clock time）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何训练能够递归调用自身（即生成子代理并委托子任务）的智能体，使其在推理时通过分治策略突破上下文长度限制、泛化到更难任务，并提升训练与推理效率——这是一个新兴且具系统性挑战的问题，此前缺乏针对递归代理的端到端强化学习训练框架。
关键思路

提出Recursive Agent Optimization (RAO)，一种专为递归代理设计的强化学习训练范式：将代理的‘是否分叉’‘如何分叉’‘如何通信’建模为可学习的策略决策，通过奖励塑形（如任务完成度、开销惩罚、通信简洁性）联合优化主代理与子代理行为；其核心新意在于将递归结构本身纳入策略梯度优化闭环，而非仅作为固定推理启发式。
其它亮点

实验在合成算法推理（如多步数学归纳、嵌套逻辑验证）和长程文档问答（超出Llama-3-8B上下文窗口2×）上验证：RAO训练的递归代理在未见难度任务上准确率提升37%，平均推理延迟降低2.1×；所有代码与环境已开源（GitHub: rao-ai/rao）；关键开放方向包括：递归深度的理论边界分析、跨层级信用分配机制、以及与检索增强递归的融合。
相关研究

1. 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' (Yao et al., 2023); 2. 'Self-Refine: Iterative Refinement with Self-Feedback' (Madaan et al., 2024); 3. 'AgentStudio: A Benchmark for LLM-based Multi-Agent Systems' (Wang et al., 2024); 4. 'Recursive Reasoning in Language Models via Meta-Prompting' (Zhou et al., NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问