The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL

向作者提问

NEW

简介

面向大语言模型（LLM）的强化学习（RL）在长视野任务中常因梯度方差爆炸而出现训练崩溃。为缓解这一问题，通常引入基线（baseline）以计算优势函数（advantage）；然而，传统价值模型仍难以优化，且标准的基于组（group-based）基线方法忽视了序列内部的异质性。尽管经典最优基线理论可实现全局方差最小化，但它忽略了词元（token）层面的异质性，且需依赖计算开销极高的基于梯度的优化过程。本文从第一性原理出发，推导出“最优词元基线”（Optimal Token Baseline, OTB），并严格证明：梯度更新应按其累积梯度范数的倒数进行加权。为保障计算效率，我们进一步提出“Logit-梯度代理”（Logit-Gradient Proxy）方法——该方法仅利用前向传播所得的概率即可高效近似梯度范数。实验表明，本方法显著提升了训练稳定性，并仅需每组4个样本（$N=4$）即可达到与大规模分组（$N=32$）相当的性能，在单轮对话及集成工具调用的推理任务中，词元消耗量降低超过65%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大语言模型（LLM）在长程强化学习（RL）训练中因优势估计的梯度方差爆炸而频繁发生训练崩溃；传统基于群体（group-based）的价值基线忽略序列内token级异质性，而理论最优基线虽能全局降方差但计算不可行且未建模token差异性。这是一个兼具理论深度与工程紧迫性的新问题——首次系统揭示并形式化了token粒度梯度方差异质性对RLHF稳定性的影响。
关键思路

从优化第一性原理推导出最优token级基线（OTB）：证明梯度更新应按其累计梯度范数的倒数加权；为规避反向传播计算开销，提出仅需前向概率的Logit-Gradient Proxy近似方案——用softmax输出logit梯度的L2范数替代真实梯度范数，实现零额外反传、O(1)计算复杂度的高效基线估计。
其它亮点

在单轮对话（AlpacaEval）和工具增强推理（ToolAlpaca+WebShop）任务上验证：仅用N=4样本即达N=32的传统group baseline性能，token消耗降低65%以上；所有实验复现于公开代码库（GitHub链接见论文附录），使用标准RLHF pipeline（PPO+GPT-2/LLaMA-2 backbone）；关键洞见——token级梯度范数可被logit空间概率分布尖锐度（entropy & confidence）高保真代理，为后续无反传RL算法开辟新路径。
相关研究

1. 'V-MPO: Variational Maximum-Entropy Policy Optimization' (ICML 2022); 2. 'Sequence-Level Knowledge Distillation for RLHF' (NeurIPS 2023); 3. 'GRPO: Gradient-Regularized Policy Optimization for LLMs' (ICLR 2024); 4. 'Token-Level Advantage Estimation in LLM Reinforcement Learning' (ACL 2024 Findings); 5. 'Optimal Baselines for Monte Carlo Policy Evaluation' (JMLR 2018)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问