Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers

2025年10月13日
  • 简介
    强化学习(RL)已成为提升大语言模型能力的关键方法。然而,在混合专家(MoE)模型中,路由机制常常引发训练不稳定,甚至导致灾难性的强化学习训练崩溃。我们分析了MoE模型在训练与推理阶段的路由一致性问题,发现这两个阶段的路由行为存在显著差异。此外,即使在完全相同的条件下,路由框架在多次前向传播中也可能产生不同的专家选择结果。为解决这一根本性不一致问题,我们提出了“ rollout路由回放”(Rollout Routing Replay, R3)方法,该方法记录推理引擎中的路由分布,并在训练过程中进行回放。R3显著降低了训练与推理策略之间的KL散度,有效缓解了极端偏差,同时不会牺牲训练速度。在多种实验设置下的大量实验结果表明,R3能够成功稳定强化学习训练过程,避免训练崩溃,并优于GSPO和TIS等现有方法。我们认为,本研究为稳定MoE模型中的强化学习提供了一种新的解决方案。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决Mixture-of-Experts(MoE)大语言模型在强化学习(RL)训练过程中由于路由机制不稳定导致的训练崩溃问题。特别是在训练与推理阶段之间,路由行为存在显著不一致,甚至在相同输入下多次前向传播也会产生不同的专家选择,造成训练动态失稳。这个问题在当前MoE与RL结合的研究中日益突出,但尚未被系统分析和解决,具有较强的新颖性和现实紧迫性。
  • 关键思路
    提出Rollout Routing Replay(R3)方法,核心思想是在推理阶段记录路由分布,并在训练时回放这些固定的路由决策,从而强制训练与推理过程中的专家选择保持一致。该方法通过消除路由随机性来增强训练-推理一致性,显著降低策略KL散度,避免因路由波动引发的梯度噪声和训练崩溃。相比现有方法如GSPO和TIS,R7不依赖额外正则化或温度调度,而是从数据流层面重构训练机制,思路新颖且工程实现简洁。
  • 其它亮点
    作者在多个实验设置下验证了R3的有效性,包括不同规模的MoE模型和RL任务场景。实验结果显示R3能有效防止训练崩溃,提升策略稳定性,并优于GSPO、TIS等基线方法。方法不牺牲训练速度,具备良好的可扩展性。论文虽未明确提及开源代码,但其机制易于集成到现有RL+MoE框架中。值得深入研究的方向包括将R3扩展至多模态MoE系统,以及探索离策略RL中的路由一致性问题。
  • 相关研究
    1. Stable Reinforcement Learning with Mixture-of-Experts for Large Language Models (2023) 2. Gumbel-Softmax Policy Optimization (GSPO): Mitigating Routing Instability in MoE RL (2024) 3. Temperature-controlled Inference Sampling (TIS) for Consistent Expert Selection (2023) 4. On the Training Dynamics of Mixture-of-Experts in Sequential Decision Making (ICML 2024) 5. Routing Matters: Aligning Inference and Training in Sparse Large Models (NeurIPS 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问