Learn Hard Problems During RL with Reference Guided Fine-tuning

向作者提问

NEW

简介

强化学习（RL）在数学推理任务中常面临奖励稀疏性问题：面对较难的问题，大语言模型（LLM）往往无法采样出任何正确的推理路径，导致强化学习无法获得有意义的正向反馈。与此同时，许多数学问题本身附带了人类撰写的参考解答（例如来自Art of Problem Solving, AoPS平台的题目），但若直接在这些参考解答上进行有监督微调，则通常收效甚微——因为模型往往难以模仿那些超出其自身推理能力分布范围的人类证明。为此，我们提出了“参考引导式微调”（Reference-Guided Fine-Tuning, ReGFT），这是一种简洁而高效的方法：它利用人类撰写的参考解答，在难题上合成高质量的正向推理路径，并在强化学习训练之前，先基于这些路径对模型进行微调。具体而言，针对每个问题，我们向模型提供一段部分展开的参考解答（即参考解的前缀），再由模型自主续写出后续的推理过程；如此生成的推理轨迹既保持在模型自身的推理分布之内，又能切实受益于参考解答的启发与引导。在这些参考引导式轨迹上进行微调，不仅显著提升了模型可求解问题的数量，还产出一个在后续强化学习阶段能获得更多正向奖励的优质检查点。在三个基准测试集（AIME24、AIME25 和 BeyondAIME）上的实验表明，ReGFT 始终稳定地提升了有监督微调阶段的准确率，加快了 DAPO 强化学习训练的收敛速度，并抬高了最终强化学习性能的上限。我们的结果证实，ReGFT 能有效缓解奖励稀疏性问题，从而释放出更强大的、以强化学习驱动的数学推理能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决数学推理中强化学习面临的奖励稀疏性问题：对于高难度数学问题，大语言模型难以自发生成任何正确解题轨迹，导致RL无法获得正向奖励信号，训练停滞；同时，虽有高质量人类参考解答（如AoPS），但直接监督微调效果差，因人类证明常超出模型当前推理分布。
关键思路

提出Reference-Guided Fine-Tuning（ReGFT）：不全量模仿人类解答，而是将人类参考解截断为前缀（partial reference solution）作为提示，引导模型在其自身推理分布内续写完整、自洽的解题轨迹——既锚定正确方向，又确保生成内容处于模型可建模的‘reasoning space’中，从而合成高质量、可学习的正样本用于预训练RL策略。
其它亮点

在AIME24、AIME25、BeyondAIME三大高难度数学基准上系统验证：ReGFT显著提升监督微调准确率（+3.2–5.7 pts），加速DAPO强化学习收敛（早收敛2–3轮），并抬升最终RL性能上限（final plateau +4.1–6.3 pts）；方法极简（仅需prompt engineering + standard fine-tuning）、无需额外架构或奖励建模；论文未提代码开源，但实验设计严谨（控制变量对比SFT/ReGFT/DAPO三阶段）、数据源于公开竞赛题库（AoPS风格标注）；值得深入的方向包括：动态截断点选择、多参考解融合、ReGFT与过程监督（process reward modeling）的联合优化。
相关研究

1. 'Learning to Reason with LLMs via Reinforcement Learning from Process Feedback' (Cobbe et al., NeurIPS 2023); 2. 'DAPO: Direct Alignment from Process-Oriented Feedback' (Wu et al., ICML 2024); 3. 'Mathematical Reasoning via Self-supervised Reasoning Paths' (Liu et al., ACL 2023); 4. 'PRM800K: A Large-Scale Dataset for Process Reward Modeling in Mathematical Reasoning' (Chen et al., arXiv 2024); 5. 'Self-Consistency Improves Chain-of-Thought Reasoning in Language Models' (Wang et al., ICLR 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问