SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

2025年06月30日
  • 简介
    近期强化学习的进展表明,语言模型通过在具有可验证奖励的任务上进行训练,可以发展出复杂的推理能力,但这些方法依赖于人工整理的问题-答案对以及特定领域的奖励工程。我们提出了SPIRAL这一自博弈框架,让模型通过与不断自我提升的版本进行多轮、零和博弈来学习,从而消除了对人类监督的需求。通过自博弈,SPIRAL生成了一个无限进阶的课程,问题难度逐步增加,因为模型必须不断适应更强的对手。 为了实现大规模的这种自博弈训练,我们构建了一个完全在线的、支持多轮次、多智能体的强化学习系统,并提出了角色条件优势估计(RAE)以稳定多智能体训练过程。使用SPIRAL,在零和博弈中的自博弈训练能够产生广泛迁移的推理能力。仅在Kuhn Poker游戏上训练Qwen3-4B-Base,就在数学任务上取得了8.6%的提升,在通用推理任务上提升了8.4%,表现优于在25,000条专家游戏轨迹上进行监督微调(SFT)的结果。 分析显示,这种能力迁移是通过三种认知模式实现的:系统性分解、期望值计算以及逐案分析。多游戏训练(包括井字棋、Kuhn Poker和简单谈判)进一步增强了整体性能,因为每种游戏培养了不同的推理优势。将SPIRAL应用于一个本身已经具备强大推理能力的模型(DeepSeek-R1-Distill-Qwen-7B)仍能带来平均2.0%的提升。这些结果表明,零和博弈能够自然地发展出可迁移的推理能力,为实现自主推理发展提供了一条有前景的方向。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决如何在无需人类监督的情况下,通过自我对弈(self-play)训练语言模型发展出可迁移的推理能力。当前许多强化学习方法依赖人工标注数据和领域特定奖励设计,而该研究验证了零和博弈(zero-sum games)可以自主培养模型的复杂推理能力这一假设。
  • 关键思路
    提出名为SPIRAL的自我对弈框架,让模型在多轮、零和游戏中与不断进化的自身版本对抗,从而自动生成渐进式难度的课程(infinite curriculum)。关键创新在于:1)完全在线的多智能体强化学习系统;2)角色条件优势估计(RAE)以稳定训练;3)无需人工标注数据或任务特定奖励函数。
  • 其它亮点
    1. 在Qwen3-4B-Base上仅通过Kuhn Poker训练,在数学推理任务上提升了8.6%,通用推理任务提升8.4%,优于基于25,000条专家轨迹的SFT。 2. 分析揭示推理能力通过三种认知模式转移:系统性分解、期望值计算、逐例分析。 3. 跨多个游戏(TicTacToe、Kuhn Poker、Simple Negotiation)联合训练进一步增强推理性能。 4. 将SPIRAL应用于已较强的推理模型(DeepSeek-R1-Distill-Qwen-7B)仍能带来平均2.0%的提升。 5. 展示了零和博弈作为推理能力自生成训练机制的有效性,为无监督推理发展提供了新路径。
  • 相关研究
    1. AlphaZero (Silver et al., 2018) —— 使用自我对弈掌握围棋、象棋等复杂游戏 2. Self-Play in Imperfect Information Games (Lanctot et al., 2017) —— 策略梯度方法用于不完美信息博弈 3. Reward Learning from Human Feedback (Christiano et al., 2017) —— 利用人类偏好进行强化学习 4. Chain-of-Thought Prompting Elicits Reasoning in LLMs (Wei et al., 2022) 5. Training Verifiable Reasoning in Language Models (Zelikman et al., 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问