- 简介强化学习从可验证奖励(RLVR)中受益,能够提升大语言模型(LLMs)的推理能力,但它在探索过程中存在不稳定的问题。我们提出了 FR3E(First Return, Entropy-Eliciting Explore),这是一种结构化探索框架,能够识别推理路径中不确定性较高的决策点,并进行有针对性的 rollout,从而构建语义上有依据的中间反馈。我们的方法在不依赖密集监督的情况下提供了有针对性的指导。在数学推理基准测试(AIME24)上的实验结果表明,FR3E 能够促进更稳定的训练过程,生成更长且更连贯的回答,并提高完全正确推理路径的比例。这些结果表明,通过更加稳健和结构化的探索方式,该框架在提升大语言模型推理能力方面具有显著效果。
- 图表
- 解决问题论文试图解决强化学习从可验证奖励(RLVR)中推理能力不稳定的问题,特别是在大型语言模型(LLMs)的探索过程中存在的不稳定性。这一问题在当前研究中尚未得到很好解决,属于较新的挑战。
- 关键思路论文提出FR3E框架,通过识别推理轨迹中的高不确定性决策点,并进行有针对性的 rollout 来构建语义上有根据的中间反馈,从而实现结构化探索。与现有方法相比,该思路强调在缺乏密集监督的情况下提供目标引导,具有较强的针对性和结构性改进。
- 其它亮点{FR3E在数学推理基准(如AIME24)上表现出更稳定的训练过程,生成的回答更长且更加连贯,完全正确推理路径的比例显著提升,实验设计聚焦于探索与反馈机制,而非依赖标注数据,未提及是否开源代码,但方法具备较高的可复现性}
- {"Reinforcement Learning from Human Feedback (RLHF)","Process Reward Models for Reasoning Tasks","Self-Consistency in Chain-of-Thought Reasoning","Uncertainty Estimation in Language Model Decoding","Monte Carlo Tree Search for Structured Reasoning in LLMs"}
沙发等你来抢
去评论
评论
沙发等你来抢