The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL

2026年02月06日
  • 简介
    面向大语言模型(LLM)的强化学习(RL)在长视野任务中常因梯度方差爆炸而出现训练崩溃。为缓解这一问题,通常引入基线(baseline)以计算优势函数(advantage);然而,传统价值模型仍难以优化,且标准的基于组(group-based)基线方法忽视了序列内部的异质性。尽管经典最优基线理论可实现全局方差最小化,但它忽略了词元(token)层面的异质性,且需依赖计算开销极高的基于梯度的优化过程。本文从第一性原理出发,推导出“最优词元基线”(Optimal Token Baseline, OTB),并严格证明:梯度更新应按其累积梯度范数的倒数进行加权。为保障计算效率,我们进一步提出“Logit-梯度代理”(Logit-Gradient Proxy)方法——该方法仅利用前向传播所得的概率即可高效近似梯度范数。实验表明,本方法显著提升了训练稳定性,并仅需每组4个样本($N=4$)即可达到与大规模分组($N=32$)相当的性能,在单轮对话及集成工具调用的推理任务中,词元消耗量降低超过65%。
  • 作者讲解
  • 图表
  • 解决问题
    大语言模型(LLM)在长程强化学习(RL)训练中因优势估计的梯度方差爆炸而频繁发生训练崩溃;传统基于群体(group-based)的价值基线忽略序列内token级异质性,而理论最优基线虽能全局降方差但计算不可行且未建模token差异性。这是一个兼具理论深度与工程紧迫性的新问题——首次系统揭示并形式化了token粒度梯度方差异质性对RLHF稳定性的影响。
  • 关键思路
    从优化第一性原理推导出最优token级基线(OTB):证明梯度更新应按其累计梯度范数的倒数加权;为规避反向传播计算开销,提出仅需前向概率的Logit-Gradient Proxy近似方案——用softmax输出logit梯度的L2范数替代真实梯度范数,实现零额外反传、O(1)计算复杂度的高效基线估计。
  • 其它亮点
    在单轮对话(AlpacaEval)和工具增强推理(ToolAlpaca+WebShop)任务上验证:仅用N=4样本即达N=32的传统group baseline性能,token消耗降低65%以上;所有实验复现于公开代码库(GitHub链接见论文附录),使用标准RLHF pipeline(PPO+GPT-2/LLaMA-2 backbone);关键洞见——token级梯度范数可被logit空间概率分布尖锐度(entropy & confidence)高保真代理,为后续无反传RL算法开辟新路径。
  • 相关研究
    1. 'V-MPO: Variational Maximum-Entropy Policy Optimization' (ICML 2022); 2. 'Sequence-Level Knowledge Distillation for RLHF' (NeurIPS 2023); 3. 'GRPO: Gradient-Regularized Policy Optimization for LLMs' (ICLR 2024); 4. 'Token-Level Advantage Estimation in LLM Reinforcement Learning' (ACL 2024 Findings); 5. 'Optimal Baselines for Monte Carlo Policy Evaluation' (JMLR 2018)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问