Absolute Zero: Reinforced Self-play Reasoning with Zero Data

2025年05月06日
  • 简介
    强化学习与可验证奖励(RLVR)在通过基于结果的奖励直接学习方面展现出潜力,能够增强大型语言模型的推理能力。近期的零设置下的 RLVR 研究避免了对推理过程进行监督标注,但仍依赖于人工整理的问题和答案集合来进行训练。高质量、由人类生成的示例的稀缺性引发了对长期依赖人工监督的可扩展性的担忧,这种挑战在语言模型预训练领域已经显现。此外,在假设未来人工智能超越人类智能的情况下,由人类提供的任务可能对一个超智能系统的学习潜力十分有限。为了解决这些问题,我们提出了一种新的 RLVR
  • 图表
  • 解决问题
    论文试图解决强化学习中对人类标注数据的依赖问题,特别是在零资源设置下,如何让模型通过自我生成任务和验证结果来提升自身的推理能力。这是一个新问题,尤其关注在没有外部数据的情况下实现模型的自主进化。
  • 关键思路
    论文提出了一种名为Absolute Zero的新范式,其中单一模型能够自动生成任务,并通过代码执行器验证答案以获得可验证的奖励信号,从而实现无需外部数据的自我训练和推理能力提升。相比现有方法,这种方法摆脱了对人工标注数据的需求,同时利用内部生成的任务作为训练素材,实现了开放式的自主学习。
  • 其它亮点
    实验表明,Absolute Zero Reasoner (AZR) 在无需外部数据的情况下,在编程和数学推理任务上达到了SOTA性能,超越了依赖数万个人类标注样本的现有零设置模型。此外,该方法适用于不同规模的模型,并兼容多种模型架构。论文未提及具体数据集或开源代码,但提出了未来研究方向,例如探索更复杂的任务生成机制和跨领域应用。
  • 相关研究
    近期相关研究包括:1) 使用强化学习与可验证奖励信号提升语言模型推理能力的工作(如RLVR);2) 自监督学习技术在大规模语言模型中的应用;3) 自动化任务生成与评估的研究(如AutoML和程序合成)。相关论文标题包括《Reinforcement Learning with Verifiable Rewards for Language Models》、《Self-Supervised Learning for Code Generation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论