- 简介通过可验证奖励的强化学习(RLVR)来训练大型语言模型(LLMs)以实现复杂推理是有效的,但受限于昂贵且特定领域的监督需求。我们研究了一种称为基于内部反馈的强化学习(RLIF)的方法,该框架使大型语言模型能够从内在信号中学习,而无需外部奖励或标注数据。我们提出了 Intuitor,一种 RLIF 方法,它使用模型自身的置信度(称为自我确定性)作为唯一的奖励信号。Intuitor 将群体相对策略优化(GRPO)中的外部奖励替换为自我确定性评分,从而实现完全无监督的学习。实验表明,Intuitor 在数学基准测试中的表现与 GRPO 相当,同时在代码生成等域外任务上表现出更好的泛化能力,且无需黄金解决方案或测试用例。我们的研究结果表明,模型的内在信号可以驱动跨领域的有效学习,为在无法获得可验证奖励的自主 AI 系统中提供了一种可扩展的 RLVR 替代方案。代码可在 https://github.com/sunblaze-ucb/Intuitor 获取。
- 图表
- 解决问题该论文试图解决如何在没有外部奖励或标注数据的情况下训练大型语言模型(LLMs)进行复杂推理的问题。这是一个新问题,尤其是在强化学习领域中,通常需要依赖昂贵的、领域特定的监督信号。
- 关键思路论文提出了一种名为Intuitor的方法,基于强化学习从内部反馈(RLIF)框架。其核心思路是利用模型自身的置信度(self-certainty)作为唯一的奖励信号,取代传统的外部奖励。这种方法与现有的Group Relative Policy Optimization (GRPO)不同,因为它完全不需要外部监督,从而降低了对昂贵标注数据的依赖。
- 其它亮点实验表明,Intuitor在数学推理任务上能够达到与GRPO相当的性能,并且在代码生成等未见过的任务上表现出更好的泛化能力。此外,作者提供了开源代码(https://github.com/sunblaze-ucb/Intuitor),便于社区复现和进一步研究。未来可以探索更多类型的内部反馈机制以及在其他复杂任务上的应用。
- 近期相关研究包括:1) Reinforcement Learning with Verifiable Rewards (RLVR),它依赖外部奖励信号来优化模型;2) Self-Supervised Learning in LLMs,例如通过对比学习或预测隐藏信息来提升模型能力;3) 其他无监督强化学习方法,如Curiosity-driven Exploration 和 Intrinsic Motivation。相关论文标题有《Reinforcement Learning from Human Feedback》和《Self-Supervised Pretraining for Code Generation》。
沙发等你来抢
去评论
评论
沙发等你来抢