SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

2025年06月30日
  • 简介
    近期强化学习的进展表明,语言模型通过在具有可验证奖励的任务上进行训练,可以发展出复杂的推理能力,但这些方法依赖于人工整理的问题-答案对以及特定领域的奖励工程。我们提出了SPIRAL这一自博弈框架,让模型通过与不断自我提升的版本进行多轮、零和博弈来学习,从而消除了对人类监督的需求。通过自博弈,SPIRAL生成了一个无限进阶的课程,问题难度逐步增加,因为模型必须不断适应更强的对手。 为了实现大规模的这种自博弈训练,我们构建了一个完全在线的、支持多轮次、多智能体的强化学习系统,并提出了角色条件优势估计(RAE)以稳定多智能体训练过程。使用SPIRAL,在零和博弈中的自博弈训练能够产生广泛迁移的推理能力。仅在Kuhn Poker游戏上训练Qwen3-4B-Base,就在数学任务上取得了8.6%的提升,在通用推理任务上提升了8.4%,表现优于在25,000条专家游戏轨迹上进行监督微调(SFT)的结果。 分析显示,这种能力迁移是通过三种认知模式实现的:系统性分解、期望值计算以及逐案分析。多游戏训练(包括井字棋、Kuhn Poker和简单谈判)进一步增强了整体性能,因为每种游戏培养了不同的推理优势。将SPIRAL应用于一个本身已经具备强大推理能力的模型(DeepSeek-R1-Distill-Qwen-7B)仍能带来平均2.0%的提升。这些结果表明,零和博弈能够自然地发展出可迁移的推理能力,为实现自主推理发展提供了一条有前景的方向。
  • 图表
  • 解决问题
    论文试图解决如何在无需人类监督的情况下,通过自我对弈(self-play)训练语言模型发展出可迁移的推理能力。当前许多强化学习方法依赖人工标注数据和领域特定奖励设计,而该研究验证了零和博弈(zero-sum games)可以自主培养模型的复杂推理能力这一假设。
  • 关键思路
    提出名为SPIRAL的自我对弈框架,让模型在多轮、零和游戏中与不断进化的自身版本对抗,从而自动生成渐进式难度的课程(infinite curriculum)。关键创新在于:1)完全在线的多智能体强化学习系统;2)角色条件优势估计(RAE)以稳定训练;3)无需人工标注数据或任务特定奖励函数。
  • 其它亮点
    {"在Qwen3-4B-Base上仅通过Kuhn Poker训练,在数学推理任务上提升了8.6%,通用推理任务提升8.4%,优于基于25,000条专家轨迹的SFT。",分析揭示推理能力通过三种认知模式转移:系统性分解、期望值计算、逐例分析。,"跨多个游戏(TicTacToe、Kuhn Poker、Simple Negotiation)联合训练进一步增强推理性能。",将SPIRAL应用于已较强的推理模型(DeepSeek-R1-Distill-Qwen-7B)仍能带来平均2.0%的提升。,展示了零和博弈作为推理能力自生成训练机制的有效性,为无监督推理发展提供了新路径。}
  • 相关研究
    {"AlphaZero (Silver et al., 2018) —— 使用自我对弈掌握围棋、象棋等复杂游戏","Self-Play in Imperfect Information Games (Lanctot et al., 2017) —— 策略梯度方法用于不完美信息博弈","Reward Learning from Human Feedback (Christiano et al., 2017) —— 利用人类偏好进行强化学习","Chain-of-Thought Prompting Elicits Reasoning in LLMs (Wei et al., 2022)","Training Verifiable Reasoning in Language Models (Zelikman et al., 2023)"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论