The Path Not Taken: RLVR Provably Learns Off the Principals

向作者提问

NEW

简介

强化学习结合可验证奖励（RLVR）能够可靠地提升大语言模型的推理性能，但似乎仅修改了极少部分的参数。我们重新审视这一矛盾现象，发现这种稀疏性实际上是模型依赖型优化偏好的表象：对于一个固定的预训练模型而言，参数更新始终集中在某些特定区域，这种集中效应在不同训练过程中高度一致，且对数据集和强化学习方法的选择具有较强的鲁棒性。我们通过“三门控理论”从机制上解释了这一动态过程：门控I（KL锚定）施加了KL约束下的参数更新；门控II（模型几何）引导更新步长偏离主方向，进入低曲率、保持谱结构的子空间；门控III（精度限制）则将微小更新隐藏在非偏好区域中，使得偏离主方向的更新被误读为参数稀疏。随后，我们验证了该理论，并首次在参数层面刻画了RLVR的学习动态：RLVR在权重空间中沿非主方向进行学习，通过最小化的谱漂移、更小的主子空间旋转以及非主方向更新的协同对齐来实现性能提升。相比之下，监督微调（SFT）主要作用于主方向权重，导致谱结构扭曲，甚至在性能上落后于RLVR。综上所述，这些结果首次从参数空间角度系统揭示了RLVR的训练动态，呈现出参数演化过程中的清晰规律。尤为重要的是，我们证明了强化学习处于与SFT截然不同的优化机制之中，因此直接套用SFT时代的参数高效微调（PEFT）方法可能存在根本缺陷，这一点已在我们对先进稀疏微调方法及LoRA变体的案例研究中得到证实。我们希望本研究能为深入理解RLVR提供一条白盒化路径，并推动面向其几何特性的、原生于RLVR的新型学习算法设计，而非继续依赖SFT时代的经验性方法。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文试图解决的问题是：尽管强化学习与可验证奖励（RLVR）在提升大语言模型推理性能方面表现出色，但其参数更新似乎仅集中在极小部分参数上，形成‘稀疏性’表象。这一现象背后是否真的意味着少量参数起作用，还是存在更深层的优化机制？该问题揭示了当前对RLVR训练动态理解的不足，尤其是在参数空间中的演化规律，属于较新的研究方向。
关键思路

论文提出‘三门控理论’（Three-Gate Theory）来解释RLVR中看似稀疏实则具有结构化偏置的更新模式：Gate I（KL锚定）施加KL约束限制偏离预训练模型；Gate II（模型几何）引导更新进入低曲率、谱保持的子空间；Gate III（精度限制）掩盖非偏好区域的微小更新，造成稀疏假象。关键新意在于首次从参数空间几何角度揭示RLVR与SFT的本质优化差异，并指出传统PEFT方法直接迁移至RL场景可能失效。
其它亮点

论文通过大量实验验证了RLVR在权重空间中沿非主方向更新，实现最小谱漂移和主子空间旋转减少，且更新方向具有一致性；而SFT则集中在主方向并扭曲频谱结构。实验覆盖多种RL设置与数据集，展示了跨运行、跨任务的高度一致性。作者提供了首个参数级的RLVR学习动态刻画，虽未明确提及开源代码，但其分析框架为后续设计‘几何感知’的RL专用微调算法奠定了基础，值得深入探索。
相关研究

1. Reinforcement Learning with Human Feedback (RLHF) has been widely studied, e.g., in 'Training language models to follow instructions with human feedback' (Christiano et al., NeurIPS 2017) 2. 'Low-Rank Adaptation (LoRA): LORA: Low-Rank Adaptation of Large Language Models' (Hu et al., ICLR 2022) 3. 'PARA: Parameter-Efficient Fine-Tuning via Selective Masking of Pre-trained Parameters' (Lester et al., 2021) 4. 'Sparse Fine-Tuning: Efficient Adaptive Inference for Real-World Applications' (Dettmers & Zettlemoyer, ACL 2023) 5. 'On the Role of Alignment in Reinforcement Learning from Human Feedback' (Ouyang et al., 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问