- 简介推理能力已成为语言模型(LMs)的下一个主要研究前沿,学术界和工业实验室均取得了快速进展。然而,这种进步往往超越了方法论的严谨性,许多评估依赖于缺乏透明度、稳健性或统计基础的基准测试实践。在这项工作中,我们进行了一项全面的实证研究,发现当前的数学推理基准对细微的实现选择高度敏感——包括解码参数、随机种子、提示格式,甚至硬件和软件框架配置。近期研究中报告的性能提升通常基于不明确的比较或未报告的方差来源。为了解决这些问题,我们提出了一种标准化的评估框架,明确了最佳实践和报告标准。通过这一框架,我们重新评估了近期的方法,发现强化学习(RL)方法仅带来了微小的改进——远低于之前的宣称——并且容易过拟合,尤其是在像 AIME24 这样的小规模基准上。相比之下,监督微调(SFT)方法表现出更强且更一致的泛化能力。为了促进可复现性,我们公开了所有代码、提示和模型输出,为推理基准测试建立了更严格的研究基础,以支持未来的工作。
- 图表
- 解决问题该论文试图解决当前数学推理基准测试中缺乏方法论严谨性的问题,特别是由于微妙实现选择(如解码参数、随机种子等)导致的性能评估不一致和不可重复性。这是一个需要引起重视但尚未被系统解决的问题。
- 关键思路论文提出了一种标准化评估框架,明确了最佳实践和报告标准,以提高研究的透明度和可比性。与以往依赖单一技术改进的研究不同,本研究通过重新评估强化学习(RL)和监督微调(SFT)方法,揭示了RL的实际效果远低于先前报道,并强调了SFT在泛化能力上的优势。
- 其它亮点实验设计全面,涵盖了多种影响因素(如硬件配置、软件框架等)。研究基于多个数学推理基准测试展开,并指出小规模数据集(如AIME24)上模型容易过拟合的现象。此外,作者开源了所有代码、提示模板和模型输出,为未来工作提供了可复现的基础。值得进一步研究的是如何结合RL和SFT的优势,以及开发更适合大规模推理任务的基准测试。
- 近期相关研究包括:1) 'Chain of Thought Prompting Elicits Reasoning in Large Language Models',探讨了链式思维提示对推理的影响;2) 'Mathematical Reasoning in Large Language Models',分析了大语言模型在数学问题上的表现;3) 'Reinforcement Learning from Human Feedback Improves Mathematical Reasoning',研究了人类反馈对RL在数学推理中的作用。这些研究共同推动了数学推理领域的进展,但大多未解决评估方法的系统性问题。
沙发等你来抢
去评论
评论
沙发等你来抢