- 简介Agentic强化学习(Agentic RL)的出现标志着一个范式的转变,它从传统的、应用于大语言模型(LLM RL)的强化学习中走出,将大语言模型从被动的序列生成器重新定义为嵌入于复杂、动态世界中的自主决策主体。本综述通过对比LLM RL中简化的单步马尔可夫决策过程(MDPs)与定义Agentic RL的具有时间延展性的、部分可观测的马尔可夫决策过程(POMDPs),形式化地阐述了这一概念上的转变。在此基础上,我们提出了一个全面的双重分类体系:一方面围绕核心的主体能力,包括规划、工具使用、记忆、推理、自我改进和感知;另一方面围绕这些能力在不同任务领域中的应用。我们论点的核心在于强化学习是将这些能力从静态的启发式模块转变为适应性强、稳健的主体行为的关键机制。为了支持并加速未来的研究,我们整理了开源环境、基准测试和框架的发展现状,汇编成一份实用指南。通过综合分析五百多篇近期研究成果,本综述描绘了这一快速发展的领域的整体图景,并突出了塑造可扩展、通用人工智能主体发展的机遇与挑战。
-
- 图表
- 解决问题论文旨在解决传统强化学习在大型语言模型(LLM RL)中的局限性问题,即将大型语言模型仅仅视为被动的序列生成器,而非具有自主决策能力的智能体。通过引入Agentic RL,论文试图验证LLM可以作为嵌入在复杂动态环境中的自主决策智能体,具备长期规划、感知、推理等能力。这是一个相对较新的问题,反映了AI领域从语言模型到智能体范式的转变。
- 关键思路论文提出将强化学习(RL)作为核心机制,推动大型语言模型从静态的序列生成工具转变为具备动态决策能力的智能体(Agentic RL)。与传统LLM RL中使用的单步马尔可夫决策过程(MDP)不同,Agentic RL采用时间扩展、部分可观测的马尔可夫决策过程(POMDP),以支持更复杂的任务和长期目标。这一思路的新颖之处在于系统性地重构了LLM与RL的结合方式,强调智能体的持续性、自主性和适应性。
- 其它亮点1. 提出了Agentic RL的概念,并将其与传统LLM RL进行形式化对比 2. 构建了从核心能力(如规划、记忆、推理等)到应用领域的双重分类体系 3. 综述了500多篇相关文献,涵盖了当前Agentic RL的研究前沿 4. 整理并推荐了开源环境、基准测试和框架资源,以推动后续研究 5. 实验设计强调了智能体在真实动态环境中的表现评估
- 1. Reinforcement Learning with Large Language Models (LLMs): A Survey 2. Planning with Transformers: A Survey of Model-Based Decision Making with Language Models 3. Emergent Tool Use from Multi-Agent Reinforcement Learning 4. Language Agents: A Survey of Reinforcement Learning in Natural Language Systems 5. Self-Improving Language Agents: Towards Continual Learning and Adaptation
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流