The Path Not Taken: RLVR Provably Learns Off the Principals

2025年11月11日
  • 简介
    强化学习结合可验证奖励(RLVR)能够可靠地提升大语言模型的推理性能,但似乎仅修改了极少部分的参数。我们重新审视这一矛盾现象,发现这种稀疏性实际上是模型依赖型优化偏好的表象:对于一个固定的预训练模型而言,参数更新始终集中在某些特定区域,这种集中效应在不同训练过程中高度一致,且对数据集和强化学习方法的选择具有较强的鲁棒性。我们通过“三门控理论”从机制上解释了这一动态过程:门控I(KL锚定)施加了KL约束下的参数更新;门控II(模型几何)引导更新步长偏离主方向,进入低曲率、保持谱结构的子空间;门控III(精度限制)则将微小更新隐藏在非偏好区域中,使得偏离主方向的更新被误读为参数稀疏。随后,我们验证了该理论,并首次在参数层面刻画了RLVR的学习动态:RLVR在权重空间中沿非主方向进行学习,通过最小化的谱漂移、更小的主子空间旋转以及非主方向更新的协同对齐来实现性能提升。相比之下,监督微调(SFT)主要作用于主方向权重,导致谱结构扭曲,甚至在性能上落后于RLVR。 综上所述,这些结果首次从参数空间角度系统揭示了RLVR的训练动态,呈现出参数演化过程中的清晰规律。尤为重要的是,我们证明了强化学习处于与SFT截然不同的优化机制之中,因此直接套用SFT时代的参数高效微调(PEFT)方法可能存在根本缺陷,这一点已在我们对先进稀疏微调方法及LoRA变体的案例研究中得到证实。我们希望本研究能为深入理解RLVR提供一条白盒化路径,并推动面向其几何特性的、原生于RLVR的新型学习算法设计,而非继续依赖SFT时代的经验性方法。
  • 作者讲解·2
  • 图表
  • 解决问题
    论文试图解决的问题是:尽管强化学习与可验证奖励(RLVR)在提升大语言模型推理性能方面表现出色,但其参数更新似乎仅集中在极小部分参数上,形成‘稀疏性’表象。这一现象背后是否真的意味着少量参数起作用,还是存在更深层的优化机制?该问题揭示了当前对RLVR训练动态理解的不足,尤其是在参数空间中的演化规律,属于较新的研究方向。
  • 关键思路
    论文提出‘三门控理论’(Three-Gate Theory)来解释RLVR中看似稀疏实则具有结构化偏置的更新模式:Gate I(KL锚定)施加KL约束限制偏离预训练模型;Gate II(模型几何)引导更新进入低曲率、谱保持的子空间;Gate III(精度限制)掩盖非偏好区域的微小更新,造成稀疏假象。关键新意在于首次从参数空间几何角度揭示RLVR与SFT的本质优化差异,并指出传统PEFT方法直接迁移至RL场景可能失效。
  • 其它亮点
    论文通过大量实验验证了RLVR在权重空间中沿非主方向更新,实现最小谱漂移和主子空间旋转减少,且更新方向具有一致性;而SFT则集中在主方向并扭曲频谱结构。实验覆盖多种RL设置与数据集,展示了跨运行、跨任务的高度一致性。作者提供了首个参数级的RLVR学习动态刻画,虽未明确提及开源代码,但其分析框架为后续设计‘几何感知’的RL专用微调算法奠定了基础,值得深入探索。
  • 相关研究
    1. Reinforcement Learning with Human Feedback (RLHF) has been widely studied, e.g., in 'Training language models to follow instructions with human feedback' (Christiano et al., NeurIPS 2017) 2. 'Low-Rank Adaptation (LoRA): LORA: Low-Rank Adaptation of Large Language Models' (Hu et al., ICLR 2022) 3. 'PARA: Parameter-Efficient Fine-Tuning via Selective Masking of Pre-trained Parameters' (Lester et al., 2021) 4. 'Sparse Fine-Tuning: Efficient Adaptive Inference for Real-World Applications' (Dettmers & Zettlemoyer, ACL 2023) 5. 'On the Role of Alignment in Reinforcement Learning from Human Feedback' (Ouyang et al., 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问