SPICE: Self-Play In Corpus Environments Improves Reasoning

向作者提问

NEW

简介

自我提升的系统需要通过与环境的持续交互来实现不断适应。我们提出了SPICE（语料库环境中的自我对弈），这是一种强化学习框架，在该框架中，单一模型承担两种角色：挑战者（Challenger）从大规模语料库中挖掘文档，生成多样化的推理任务；推理者（Reasoner）则负责解决这些任务。通过对抗性的动态机制，挑战者能够在推理者能力的前沿自动生成一个渐进式的课程，而基于语料库的 grounding 机制则提供了丰富且近乎无限的外部信号，为持续改进提供了必要条件。与现有缺乏 grounding 的自我对弈方法相比（其带来的提升较为有限），SPICE 在多个模型家族的数学推理（+8.9%）和通用推理（+9.8%）基准测试中均实现了稳定的性能提升。我们的分析揭示了文档 grounding 是 SPICE 能够持续生成日益复杂的目标并成功达成这些目标的关键要素，从而实现了真正的持续性自我提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的自对弈方法大多缺乏外部环境的 grounding，导致生成的任务容易陷入模式崩溃或重复，无法持续提升模型能力。论文试图解决如何实现语言模型的持续自我改进问题，特别是在数学和通用推理任务上，通过引入外部知识库来驱动长期、有意义的学习过程。这是一个重要且尚未被充分解决的问题，尤其是在脱离人工标注数据的情况下实现可持续自我进化。
关键思路

提出 SPICE 框架，让同一个模型扮演两个角色：Challenger 负责从大规模文档语料库中挖掘内容并生成推理任务，Reasoner 负责解答这些任务。两者通过对抗性动态形成自动课程学习机制，Challenger 始终在 Reasoner 当前能力边界上生成更具挑战性的任务，而语料库的丰富性保证了任务的多样性与可持续性。相比以往无 grounding 的自对弈方法（如 SELF-IMPROVE、SELF-PLAY），SPICE 利用真实世界文本作为外部信号源，实现了更稳定和持续的性能提升。
其它亮点

实验设计上，在多个模型族（如 Llama 系列、Mistral）上验证了 SPICE 在数学（GSM8K、MATH）和通用推理（BIG-BENCH Hard）基准上的有效性，平均提升达 +8.9%（数学）和 +9.8%（推理）。使用的是公开可获取的文档语料库进行任务生成，强调无需人工标注。虽然论文未明确说明是否开源代码，但其方法框架具有高度可复现性。值得深入的方向包括将 SPICE 扩展到多模态任务、结合检索增强生成（RAG）技术优化 Challenger 的任务生成质量，以及探索在其他领域（如代码生成、科学发现）的应用。
相关研究

1. SELF-IMPROVE: Improving Language Models by Iterative Refinement 2. Self-Instruct: Aligning Language Models with Self-Generated Instructions 3. Chain-of-Thought Hub: A Continuous Self-Improvement Framework for Language Models 4. Generative Agents: Interactive Simulacra of Human Behavior 5. ReST: Reinforcement Self-Training for Language Model Alignment

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问