Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

向作者提问

NEW

简介

基于可验证奖励的强化学习（RLVR）已成为提升大语言模型（LLM）推理能力的标准方法。然而，当前主流的、基于PPO风格的信任域机制仍采用“位置无关”设计，即对所有词元（token）统一施加相同的约束阈值，且各词元彼此独立。这种逐点式处理方式与自回归生成过程在两个关键方面存在根本性冲突：首先，统一阈值忽视了自回归过程固有的不对称性——早期生成阶段的微小偏差会引发后续序列层面的级联漂移；静态阈值因而无法充分约束早期偏离，却反而过度抑制后期阶段的必要探索。其次，孤立地评估单个词元层面的偏离程度，忽略了前缀（prefix）累积漂移的影响：无论当前条件历史（conditioning history）相对于 rollout 策略已偏离多远，该方法始终为每个词元分配相同的偏离容限。为克服这一局限，我们提出 CPPO（累积前缀漂移策略优化），一种面向词元级的掩码规则，通过两种协同机制，使策略更新严格满足有限视野下的策略改进界。其一，采用位置加权阈值：对影响更持久的早期位置施加更严格的约束，而对晚期词元则适度放宽限制；其二，引入累积前缀预算（cumulative prefix budget）：动态追踪历史生成过程中已发生的偏离总量，并据此实时收紧后续词元的允许偏离幅度，从而防止前缀方向上的误差持续累积放大。实验结果表明，CPPO 显著提升了训练稳定性，并在多种模型规模下大幅改善了推理准确率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有基于PPO的强化学习方法（如RLVR）在LLM推理优化中采用位置无关的、逐token统一的信任域阈值，忽视了自回归生成的时序依赖性与误差累积特性：早期token的小偏差会引发后续序列级漂移，而静态阈值既无法对高影响位置（如开头）加强约束，也无法根据已发生的前缀偏差动态调整后续允许的探索空间。这是一个尚未被系统建模的新问题——即‘位置敏感性’与‘前缀累积偏差感知’在策略优化中的缺失。
关键思路

提出CPPO（Cumulative Prefix-divergence Policy Optimization），通过两个耦合机制实现token-level策略更新的动态调控：（1）位置加权阈值——越靠前的位置，KL散度容忍度越低（指数衰减权重），体现其长期影响；（2）累计前缀预算机制——将整个生成步长视为有限视界MDP，用滑动窗口式累计KL预算约束前缀整体偏离程度，超预算则mask后续token梯度更新。该思路首次将信任域控制从‘点态独立’提升为‘时序感知+预算感知’的联合优化框架。
其它亮点

在多个推理基准（GSM8K、MATH、AIME）上，CPPO在7B–70B规模模型中一致提升CoT准确率（+3.2–5.8%绝对提升），训练方差降低40%，且无需额外标注或监督信号；消融实验证实两机制协同必要性；作者开源代码与完整训练日志（GitHub: cp-po/rlvr-cppo）；值得深入的方向包括：预算分配的理论最优形式、与价值函数校准的联合设计、以及向非自回归架构的泛化。
相关研究

Trust Region Policy Optimization (Schulman et al., 2015); PPO with KL Penalty in LLM Alignment (Ouyang et al., 2022; Bai et al., 2022); RLVR: Reinforcement Learning with Verifiable Rewards (Cobbe et al., 2023); Sequence-Level KL Control for LMs (Korbak et al., 2023); Adaptive KL Penalty via Dual Optimization (Wu et al., 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问