Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

2025年07月01日
  • 简介
    数学推理已经成为大型语言模型(LLMs)进展的代表性领域,新模型在MATH和AIME等基准测试中迅速超越人类水平的表现。然而,随着数学排行榜每周都在提升,我们有必要思考:这些进步反映的是更广泛的解决问题能力,还是仅仅是一种狭窄的过拟合?为了回答这个问题,我们评估了超过20个开源权重的、经过推理调优的模型,在包括数学、科学问答、智能体规划、编程以及标准指令跟随在内的多种任务上进行了广泛测试。我们意外地发现,大多数在数学任务上表现优异的模型,其能力难以迁移到其他领域。为了深入研究这一现象,我们在Qwen3-14B模型上开展受控实验,使用仅包含数学的数据但采用不同的调优方法。我们发现,通过强化学习(RL)调优的模型在多个领域表现出良好的泛化能力,而通过监督微调(SFT)调优的模型则常常会遗忘通用能力。通过对潜在空间表示和令牌空间分布变化的分析,我们发现SFT会导致显著的表示偏移和输出漂移,而RL则能较好地保持通用领域的结构。我们的研究结果表明,需要重新思考当前的标准后训练流程,特别是对使用SFT蒸馏数据来推动推理模型发展的做法提出质疑。
  • 图表
  • 解决问题
    论文试图解决当前大型语言模型(LLMs)在数学推理任务上表现优异,但在其他领域(如科学问答、编码、规划等)未能实现能力迁移的问题。作者想验证这些性能提升是否反映了更广泛的推理能力,还是仅仅是对特定任务的过拟合。
  • 关键思路
    通过对比监督微调(SFT)和强化学习(RL)对模型跨域泛化能力的影响,发现RL方法能够保留并提升模型的一般问题解决能力,而SFT则可能导致通用能力的遗忘。这一发现挑战了目前主流依赖SFT进行后训练的做法,并提出需要重新思考模型训练策略。
  • 其它亮点
    {评估了超过20个开放权重的推理优化模型,在多个任务上测试其泛化能力,在Qwen3-14B模型上进行了受控实验,使用纯数学数据但不同训练方法,结合潜在空间表示分析与token分布偏移分析,揭示了SFT与RL在表征稳定性方面的差异,发现RL训练不仅保持了数学性能,还能更好迁移到其他领域,实验结果提示未来研究应更重视RL等泛化性更强的训练范式}
  • 相关研究
    {DeepMind的AlphaProof项目:将数学推理与形式化定理证明结合,Meta的MathCoder项目:利用代码生成增强数学解题能力,Google关于思维路径(Chain-of-Thought)泛化的研究,OpenAI关于GPT系列模型推理能力边界的研究,近期关于大模型幻觉、泛化与训练目标之间关系的多项实证研究}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论