On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

向作者提问

NEW

简介

近年来，强化学习（RL）技术显著提升了语言模型的推理能力，但目前尚不清楚后训练阶段是否真正扩展了模型在预训练之外所获得的推理能力。一个核心难题在于现代训练流程缺乏可控性：大规模预训练语料库不透明，中段训练常被忽视，而强化学习的目标又以复杂方式与模型未知的先验知识相互作用。为消除这种模糊性，我们构建了一个完全可控的实验框架，用以分离预训练、中段训练和基于强化学习的后训练各自的因果贡献。该方法采用具有明确原子操作、可解析的逐步推理轨迹以及系统化调整训练分布的合成推理任务。我们在两个维度上评估模型表现：一是向更复杂组合结构的外推泛化能力，二是跨不同表层情境的情境泛化能力。通过这一框架，我们调和了关于强化学习有效性的不同观点，结果表明：1）只有当预训练仍留有足够提升空间，且强化学习的数据聚焦于模型能力边缘的任务（即难度较高但尚未超出其掌握范围的任务）时，强化学习才能带来真正的能力提升（以pass@128为指标）；2）情境泛化需要最低限度但足够的预训练接触，此后强化学习能够可靠地实现迁移；3）在计算资源固定的前提下，中段训练能显著提升性能，相较于仅使用强化学习效果更优，凸显了其在训练流程中关键却未被充分探索的作用；4）过程层面的奖励机制有助于减少奖励欺骗行为，并提升推理的保真度。这些发现共同阐明了预训练、中段训练与强化学习之间的相互作用关系，为理解和改进推理型语言模型的训练策略奠定了基础。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决当前强化学习（RL）在语言模型推理能力提升中的因果贡献不明确的问题，特别是预训练、中期训练与RL后训练之间相互作用的模糊性。核心问题是：RL是否真正扩展了模型的推理能力，还是仅仅挖掘了预训练中已有的潜在知识？这是一个重要但尚未被清晰回答的问题，尤其是在缺乏可控实验设置的情况下。
关键思路

提出一个完全可控的实验框架，使用合成推理任务来隔离预训练、中期训练和RL后训练的因果影响。关键创新在于设计具有显式原子操作和可解析推理链的合成任务，并系统操控训练数据分布，从而精确控制模型的知识来源与学习过程，首次实现了对不同训练阶段作用的因果分析。
其它亮点

1) 实验设计严谨，采用可调控复杂度的合成任务（如算术与逻辑推理），支持外推泛化与上下文泛化的评估；2) 发现RL仅在预训练留有‘能力余量’且RL数据针对模型能力边界时才带来真实能力提升；3) 验证了少量但充分的预训练即可支持RL的上下文迁移；4) 中期训练在相同计算预算下显著优于纯RL路径，凸显其被低估的作用；5) 过程级奖励能有效抑制奖励黑客行为，提高推理保真度；6) 框架具备可复现性，虽未提及开源代码，但方法论为后续研究提供了清晰蓝图；值得深入的方向包括将该框架应用于真实世界推理任务以及自动化发现模型能力边界的动态RL策略。
相关研究

1. 'Large Language Models as Optimizers' (ICLR 2024) 2. 'Self-Taught Reasoner: Learning to Reason from Its Own Latent Information' (NeurIPS 2023) 3. 'Reinforcement Learning with Latent Rewards' (ICML 2023) 4. 'Chain-of-Thought Hub: A Continuous Effort to Benchmark Large Language Model Reasoning' (2024) 5. 'The Role of Pretraining in Compositional Generalization of Language Models' (ACL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问