RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization

2025年10月02日
  • 简介
    利用人类标注数据的强化学习已显著提升了大模型在思维链推理方面的能力,但这种提升依赖大量标注数据,且在面对更困难的任务时表现不佳。一个自然的下一步是经验驱动的学习,即模型无需人工整理的标签,通过适应无标签数据实现自我提升。我们提出了RESTRAIN(基于自我约束的强化学习),这是一种具备自我惩罚机制的强化学习框架,能将缺乏标准答案的情况转化为有效的学习信号。RESTRAIN并不盲目追随错误的多数答案,而是充分利用模型整体回答分布中的信息:对过度自信的生成结果和低一致性的样本进行惩罚,同时保留具有潜力的推理路径。这种自我惩罚机制可无缝集成到GRPO等策略优化方法中,从而实现无需监督的持续自我改进。在多项高难度推理基准测试中,RESTRAIN仅使用无标签数据就取得了显著提升:对于Qwen3-4B-Base和OctoThinker Hybrid-8B-Base模型,在AIME25上Pass@1指标最高提升达+140.7%,在MMLU_STEM上提升+36.2%,在GPQA-Diamond上提升+19.6%,性能几乎媲美使用标准答案训练的效果,却完全无需任何标注标签。这些结果表明,RESTRAIN为摆脱对标准标签的依赖、实现可扩展的更强推理能力提供了一条可行路径。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在大型推理模型中,依赖人类标注数据进行强化学习所带来的高成本和在复杂任务上表现不佳的问题。当前方法过度依赖昂贵的黄金标签,难以扩展到更难的推理任务,因此需要一种无需监督、能利用无标签数据持续自我提升的方法。这个问题在当前研究中日益突出,但尚未有高效且可扩展的解决方案。
  • 关键思路
    提出RESTRAIN,一种基于自我约束的强化学习框架,通过模型自身生成的答案分布来生成学习信号,而非依赖黄金标签。其核心思想是自我惩罚机制:对置信度过高但一致性低的推理路径进行惩罚,保留具有潜力的推理链。该方法无缝集成到GRPO等策略优化算法中,实现无监督下的持续自我改进,相比传统依赖标注数据的RL方法更具可扩展性和鲁棒性。
  • 其它亮点
    在AIME25、MMLU_STEM和GPQA-Diamond等多个高难度推理基准上,仅使用无标签数据,RESTRAIN使Qwen3-4B-Base和OctoThinker Hybrid-8B-Base模型的Pass@1分别提升高达+140.7%、+36.2%和+19.6%,性能接近甚至逼近使用黄金标签训练的结果。实验设计充分验证了自惩罚机制的有效性,且方法不依赖额外标注。目前论文未明确提及开源代码,但其无监督范式为后续研究提供了新方向,值得探索在更多模型和任务上的泛化能力。
  • 相关研究
    1. Self-Instruct: Aligning Language Models with Self-Generated Instructions 2. Chain-of-Thought Hub: A Continuous Learning System for Improving Reasoning 3. ReST: Reinforcement Self-Training for Reasoning in Large Language Models 4. AutoReg: Automated Data Selection for Self-Improvement of Language Models 5. Unsupervised Question Answering by Cloze Translation
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问