Group Sequence Policy Optimization

2025年07月24日
  • 简介
    本文提出了一种用于训练大语言模型的稳定、高效且性能优异的强化学习算法——Group Sequence Policy Optimization(GSPO)。与以往采用逐token重要性比率的算法不同,GSPO基于序列似然定义重要性比率,并进行序列级别的裁剪、奖励和优化。我们证明了GSPO在训练效率和性能上优于GRPO算法,显著稳定了专家混合模型(MoE)的强化学习训练过程,并且具有简化强化学习基础设施设计的潜力。GSPO的这些优势为最新Qwen3模型的显著提升做出了重要贡献。
  • 图表
  • 解决问题
    论文旨在解决大语言模型在强化学习训练过程中存在的稳定性差、效率低以及基础设施设计复杂的问题,尤其是在Mixture-of-Experts (MoE) 模型的训练中表现不佳的问题。这是一个在当前大模型训练领域中较为重要且尚未完全解决的问题。
  • 关键思路
    论文提出了一种名为Group Sequence Policy Optimization (GSPO) 的新算法,其核心思路是通过基于序列似然的重要性比率进行序列级别的裁剪、奖励和优化,而非传统的token级别操作。这种方法在策略更新时考虑了整个序列的信息,提高了训练的稳定性和效率。
  • 其它亮点
    1. GSPO在实验中表现出比GRPO算法更高的训练效率和性能。 2. 该算法显著稳定了Mixture-of-Experts (MoE) 模型的强化学习训练过程。 3. GSPO具备简化强化学习基础设施设计的潜力。 4. 被应用于Qwen3模型的训练,取得了显著效果提升。 5. 论文未明确提及是否开源代码或使用公开数据集,但其方法的通用性值得进一步验证和扩展。
  • 相关研究
    1. Proximal Policy Optimization (PPO) 2. Reinforcement Learning with Token-Level Importance Ratios (e.g., GRPO) 3. Sequence-Level Policy Optimization in Language Models 4. Policy Gradient Methods for Large Language Models 5. Mixture-of-Experts Training Stabilization Techniques
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论