Agentic Reasoning for Large Language Models

向作者提问

NEW

简介

推理是一种基础性的认知过程，支撑着推断、问题求解与决策制定等关键能力。尽管大语言模型（LLMs）在封闭世界（closed-world）场景下展现出强大的推理能力，但在开放性、动态变化的环境中却往往表现乏力。而“具身式推理”（agentic reasoning）则代表了一种范式转变：它将大语言模型重新定义为具备自主性的智能体（agents），使其能够通过持续的环境交互来规划行动、执行操作并不断学习进化。本综述从三个相互补充的维度系统梳理具身式推理的研究脉络。首先，我们依据环境动态性特征，将其划分为三个层次：其一为“基础具身式推理”，聚焦于单智能体在稳定环境中的核心能力构建，包括规划、工具调用与搜索等；其二为“自演化具身式推理”，关注智能体如何借助反馈机制、记忆系统与适应性学习，持续优化和提升上述基础能力；其三为“群体多智能体推理”，进一步将智能扩展至协同场景，涵盖多智能体间的协调协作、知识共享与共同目标达成。在上述各层次中，我们明确区分两类推理范式：“上下文内推理”（in-context reasoning）强调在测试阶段通过结构化编排（structured orchestration）扩展交互规模与深度；而“后训练推理”（post-training reasoning）则侧重于借助强化学习与监督微调等方法，在模型部署前对其行为策略进行系统性优化。此外，我们还全面回顾了具身式推理在真实世界各类应用场景与基准任务中的代表性框架，涵盖科学发现、机器人学、医疗健康、自主科研以及数学推理等领域。本综述最终将纷繁的具身式推理方法整合为一条贯通“思维”与“行动”的统一演进路线图，并系统梳理了当前亟待突破的关键挑战与未来发展方向，包括个性化适配、长周期交互建模、世界模型构建、可扩展的多智能体协同训练，以及面向现实世界部署的治理框架设计等。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

传统大语言模型（LLMs）在封闭、静态环境中展现强大推理能力，但在开放、动态、交互式环境中（如真实世界任务、长期协作、具身决策）表现受限。论文系统性地提出并定义‘agentic reasoning’（具身式推理）这一新范式，旨在解决LLM从被动文本响应者向自主规划、持续行动与适应性学习的智能体演进的根本性挑战。
关键思路

首次将agentic reasoning结构化为三层递进框架：基础单智能体能力（规划/工具/搜索）、自我演化能力（通过反馈/记忆/在线适应实现能力增长）、集体多智能体协同（目标对齐、知识共享、分布式推理）；并正交区分两种实现路径——in-context reasoning（测试时通过提示工程与流程编排实现零样本/少样本交互扩展）与post-training reasoning（通过RLHF、SFT等训练时优化固化行为策略）。该分层+正交双维建模是本工作的核心理论创新。
其它亮点

全面综述覆盖科学发现、机器人控制、临床决策、自主科研（如AI科学家）、数学定理证明等5大高价值应用场景；系统梳理12+主流agentic框架（如LangChain、AutoGen、MetaGPT、HuggingGPT、TaskMatrix、CAMEL）及其在基准（WebShop、ALFWorld、ScienceWorld、GAIA、MATH-AGENTS）上的表现；强调‘thought-to-action闭环’作为统一范式；指出长期未被重视的挑战：个性化建模、千步级长程交互稳定性、轻量级世界模型构建、多智能体规模化训练的通信与信用分配、以及面向现实部署的可解释性与治理框架；全文无实验但提供权威路线图与开放问题清单，代码生态整合于Hugging Face、GitHub主流仓库。
相关研究

‘ReAct: Synergizing Reasoning and Acting in Language Models’ (Wang et al., ICLR 2023); ‘Reflexion: Language Agents with Verbal Reinforcement Learning’ (Shinn et al., NeurIPS 2023); ‘Tree of Thoughts: Deliberate Problem Solving with Large Language Models’ (Yao et al., ICML 2024); ‘Multi-Agent LLM Systems Organization’ (Park et al., arXiv:2308.08155); ‘AgentVerse: Facilitating Multi-Agent Research’ (Zhang et al., ACL 2024); ‘The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery’ (Huang et al., arXiv:2402.17803)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问