A Survey of Reinforcement Learning for Large Reasoning Models

2025年09月10日
  • 简介
    在本文中,我们综述了强化学习(RL)在大型语言模型(LLMs)推理能力方面的最新进展。强化学习在推动LLM能力前沿方面取得了显著成功,尤其是在解决诸如数学和编程等复杂逻辑任务方面。因此,RL已成为将LLM转变为推理模型(LRMs)的一种基础方法。随着该领域迅速发展,RL在LRMs上的进一步扩展不仅在计算资源方面面临基础性挑战,在算法设计、训练数据和基础设施方面也面临挑战。鉴于此,我们有必要及时回顾这一领域的发展历程,重新评估其发展方向,并探索提升RL向通用人工智能(ASI)扩展的可扩展性策略。特别是自DeepSeek-R1发布以来,我们重点分析了将RL应用于LLM和LRMs以提升推理能力的相关研究,包括其基础组成部分、核心问题、训练资源和下游应用,以识别这一快速演进领域的未来机遇和研究方向。我们希望本综述能够推动未来在更广泛推理模型上应用强化学习的研究。Github:https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
  • 图表
  • 解决问题
    这篇论文试图探讨和总结强化学习(RL)在增强大型语言模型(LLMs)推理能力方面的最新进展,尤其是如何将LLMs转化为逻辑推理模型(LRMs)。同时,论文关注RL在算法设计、训练数据、基础设施等方面面临的挑战,并探索提升其可扩展性以迈向通用人工智能(ASI)的策略。这是一个正在快速发展的研究方向,尤其在处理复杂逻辑任务(如数学和编程)方面。
  • 关键思路
    论文的核心思路是系统回顾近年来将强化学习应用于大型语言模型以增强其推理能力的研究进展,重点分析自DeepSeek-R1发布以来的相关工作,识别该领域中的关键问题、核心方法、训练资源与下游应用,从而为未来研究提供方向指引。其新意在于从多个维度(如算法、资源、应用)综合评估RL在推理模型中的作用与挑战。
  • 其它亮点
    1. 全面梳理了强化学习在逻辑推理模型(LRMs)中的应用现状 2. 分析了当前RL在扩展至ASI过程中面临的基础性挑战 3. 总结了多个关键研究方向,包括算法改进、训练数据构建与评估体系设计 4. 提供了开源项目链接(GitHub),方便研究社区进一步探索 5. 强调了RL在复杂任务(如数学推理、代码生成)中的潜力
  • 相关研究
    1. DeepSeek-R1: A Large Language Model for Reasoning Tasks 2. AlphaCode: Training a Language Model to Solve Coding Problems 3. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 4. Reinforcement Learning with Implicit Human Preferences for Reasoning Tasks 5. Scaling Laws for Reward Model Overfitting in Language Model Training
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论