- 简介我们提出了“未来-KL影响策略优化”(Future-KL Influenced Policy Optimization,简称FIPO),这是一种专为突破大语言模型推理瓶颈而设计的强化学习算法。尽管GRPO风格的训练在扩展性上表现优异,但它通常依赖基于最终结果的奖励模型(Outcome Reward Model, ORM),并将全局优势值(global advantage)均匀地分配给整个轨迹中的每一个token。我们认为,这种粗粒度的信用分配机制因无法区分关键逻辑转折点与无关紧要的token,从而为模型性能设定了上限。FIPO通过在策略更新中引入**折扣化的未来Kullback-Leibler(KL)散度**,构建了一种稠密型优势函数(dense advantage formulation),该函数依据各token对未来轨迹行为的影响程度,对其进行动态重加权。实验表明,FIPO使模型成功突破了标准基线方法中普遍存在的推理链长度停滞现象。在Qwen2.5-32B模型上的评估结果显示:FIPO将平均思维链(chain-of-thought)长度从约4,000个token显著提升至超过10,000个token;同时,AIME 2024评测集上的Pass@1准确率也从50.0%提升至峰值58.0%(收敛值稳定在约56.0%)。该结果不仅优于DeepSeek-R1-Zero-Math-32B(约47.0%),亦超越o1-mini(约56.0%)。我们的研究结果表明,构建稠密型优势函数,是推动基于ORM的强化学习算法持续演进、充分释放基础模型推理潜能的关键路径。我们已将基于verl框架开发的完整训练系统开源。
-
- 图表
- 解决问题论文旨在解决大语言模型在复杂推理任务中因粗粒度信用分配(如全局优势函数均匀分配至所有token)导致的推理长度停滞与逻辑关键点识别能力不足问题;该问题在ORM-based RLHF方法(如GRPO)中普遍存在,虽非全新,但此前缺乏对token级动态影响建模的系统性解决方案。
- 关键思路提出Future-KL Influenced Policy Optimization (FIPO),将折扣化的未来Kullback-Leibler散度(future-KL)显式引入策略梯度更新,构建稠密、时序敏感的优势函数——每个token的优势值由其对未来K步策略分布的影响程度加权,从而实现细粒度逻辑枢纽识别与梯度聚焦;相比传统ORM仅依赖最终结果奖励,FIPO首次将隐式推理影响力显式建模为可微分、可优化的KL路径导数。
- 其它亮点在Qwen2.5-32B上实证:CoT平均长度从~4,000跃升至>10,000 tokens;AIME 2024 Pass@1达58.0%(收敛56.0%),超越DeepSeek-R1-Zero-Math-32B(47.0%)和o1-mini(56.0%);实验严格复现GRPO基线并控制训练预算,使用真实数学推理轨迹与人工校验reward信号;代码基于verl框架开源;值得深入的方向包括:future-KL的最优K与折扣因子自适应机制、KL影响传播的可解释性可视化、以及向多步规划与符号推理的泛化。
- GRPO: Generalized Reinforcement Learning from Policy Optimization (ICML 2023); DeepSeek-R1: Reasoning with Reinforcement Learning (arXiv 2024); o1-mini: A Lightweight Reasoning-Oriented LLM (OpenAI Technical Report 2024); ReFT: Representation Fine-Tuning for Reasoning (NeurIPS 2023); Tree-of-Thought RL: Hierarchical Credit Assignment in Latent Thought Space (ICLR 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流