SPICE: Self-Play In Corpus Environments Improves Reasoning

2025年10月28日
  • 简介
    自我提升的系统需要通过与环境的持续交互来实现不断适应。我们提出了SPICE(语料库环境中的自我对弈),这是一种强化学习框架,在该框架中,单一模型承担两种角色:挑战者(Challenger)从大规模语料库中挖掘文档,生成多样化的推理任务;推理者(Reasoner)则负责解决这些任务。通过对抗性的动态机制,挑战者能够在推理者能力的前沿自动生成一个渐进式的课程,而基于语料库的 grounding 机制则提供了丰富且近乎无限的外部信号,为持续改进提供了必要条件。与现有缺乏 grounding 的自我对弈方法相比(其带来的提升较为有限),SPICE 在多个模型家族的数学推理(+8.9%)和通用推理(+9.8%)基准测试中均实现了稳定的性能提升。我们的分析揭示了文档 grounding 是 SPICE 能够持续生成日益复杂的目标并成功达成这些目标的关键要素,从而实现了真正的持续性自我提升。
  • 作者讲解
  • 图表
  • 解决问题
    现有的自对弈方法大多缺乏外部环境的 grounding,导致生成的任务容易陷入模式崩溃或重复,无法持续提升模型能力。论文试图解决如何实现语言模型的持续自我改进问题,特别是在数学和通用推理任务上,通过引入外部知识库来驱动长期、有意义的学习过程。这是一个重要且尚未被充分解决的问题,尤其是在脱离人工标注数据的情况下实现可持续自我进化。
  • 关键思路
    提出 SPICE 框架,让同一个模型扮演两个角色:Challenger 负责从大规模文档语料库中挖掘内容并生成推理任务,Reasoner 负责解答这些任务。两者通过对抗性动态形成自动课程学习机制,Challenger 始终在 Reasoner 当前能力边界上生成更具挑战性的任务,而语料库的丰富性保证了任务的多样性与可持续性。相比以往无 grounding 的自对弈方法(如 SELF-IMPROVE、SELF-PLAY),SPICE 利用真实世界文本作为外部信号源,实现了更稳定和持续的性能提升。
  • 其它亮点
    实验设计上,在多个模型族(如 Llama 系列、Mistral)上验证了 SPICE 在数学(GSM8K、MATH)和通用推理(BIG-BENCH Hard)基准上的有效性,平均提升达 +8.9%(数学)和 +9.8%(推理)。使用的是公开可获取的文档语料库进行任务生成,强调无需人工标注。虽然论文未明确说明是否开源代码,但其方法框架具有高度可复现性。值得深入的方向包括将 SPICE 扩展到多模态任务、结合检索增强生成(RAG)技术优化 Challenger 的任务生成质量,以及探索在其他领域(如代码生成、科学发现)的应用。
  • 相关研究
    1. SELF-IMPROVE: Improving Language Models by Iterative Refinement 2. Self-Instruct: Aligning Language Models with Self-Generated Instructions 3. Chain-of-Thought Hub: A Continuous Self-Improvement Framework for Language Models 4. Generative Agents: Interactive Simulacra of Human Behavior 5. ReST: Reinforcement Self-Training for Language Model Alignment
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问