No Free Lunch: Rethinking Internal Feedback for LLM Reasoning

2025年06月20日
  • 简介
    强化学习已成为训练后大型语言模型(LLMs)提升推理能力的强大范式。类似基于人类反馈的强化学习(RLHF)和带有可验证奖励的强化学习(RLVR)的方法已显示出强劲的效果,但它们需要大量的外部监督。我们研究了一类替代方法,即基于内部反馈的强化学习(RLIF),该方法仅依赖于模型自身生成的内在信号,而非外部奖励。具体来说,我们利用了无监督的奖励代理,例如词元级熵、轨迹级熵以及自置信度。我们的理论分析表明,这些内部目标在一定程度上是等价的,并且我们在具有挑战性的数学推理基准上对各种RLIF策略进行了实证评估。实验结果表明,在训练初期,RLIF能够提升基础LLM的推理性能,在这些任务上与RLVR技术相匹配甚至超越。然而,随着训练的推进,性能下降,甚至低于训练前的模型水平。此外,我们发现RLIF对经过指令微调的模型几乎没有改进作用,这表明一旦LLM已经经过指令微调,内在反馈的收益将逐渐减少。我们通过混合模型权重进一步分析了这一限制,并解释了RLIF训练行为的原因,为将内部反馈信号整合到LLM训练中提供了实用指导。我们希望对内部反馈的分析能够为更合理、更有效的LLM训练后优化策略提供参考。
  • 图表
  • 解决问题
    该论文试图解决如何通过内部反馈信号(而非外部奖励)来改进大型语言模型(LLMs)的推理能力。这是一个相对新颖的问题,因为它探索了无需人类监督或外部奖励的强化学习方法。
  • 关键思路
    论文提出了一种名为Reinforcement Learning from Internal Feedback (RLIF)的方法,利用模型自身的内在信号(如token级熵、轨迹级熵和自信心)作为奖励函数。相比传统的RLHF或RLVR方法,RLIF不需要外部监督,而是完全依赖于模型生成的信号。这种方法在理论上部分等价于其他目标,并且在训练初期显示出提升推理性能的效果。
  • 其它亮点
    1. 实验表明RLIF在训练初期能够显著提升基础LLM的数学推理能力,甚至超越RLVR技术;2. 研究发现对于已经经过指令调优的模型,RLIF的作用有限,这揭示了内在反馈的局限性;3. 作者通过混合模型权重分析了RLIF的行为模式,并提供了将内部反馈整合到LLM训练中的实用建议;4. 虽然没有提及开源代码,但研究设计详细,使用了挑战性的数学推理基准数据集。
  • 相关研究
    与本文相关的研究包括:1. Reinforcement Learning from Human Feedback (RLHF),如OpenAI的InstructGPT系列工作;2. Reinforcement Learning with Verifiable Rewards (RLVR),例如DeepMind的AlphaCode项目;3. 其他关于无监督学习和内在奖励的研究,如《Exploring the Limits of Self-Supervised Pre-Training》和《Self-Supervised Learning for Language Models via Cloze Tasks》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论