报告主题:LLM在数学推理能力的提升是否能迁移到其他领域

报告日期:07月22日(下周二) 10:30-11:30

报告要点:
数学推理已经成为大型语言模型(LLMs)进展的代表性领域,新模型在MATH和AIME等基准测试中迅速超越人类水平的表现。然而,随着数学排行榜每周都在提升,我们有必要思考:这些进步反映的是更广泛的解决问题能力,还是仅仅是一种狭窄的过拟合?为了回答这个问题,我们评估了超过20个开源权重的、经过推理调优的模型,在包括数学、科学问答、智能体规划、编程以及标准指令跟随在内的多种任务上进行了广泛测试。我们意外地发现,大多数在数学任务上表现优异的模型,其能力难以迁移到其他领域。
为了深入研究这一现象,我们在Qwen3-14B模型上开展受控实验,使用仅包含数学的数据但采用不同的调优方法。我们发现,通过强化学习(RL)调优的模型在多个领域表现出良好的泛化能力,而通过监督微调(SFT)调优的模型则常常会遗忘通用能力。通过对潜在空间表示和令牌空间分布变化的分析,我们发现SFT会导致显著的表示偏移和输出漂移,而RL则能较好地保持通用领域的结构。我们的研究结果表明,需要重新思考当前的标准后训练流程,特别是对使用SFT蒸馏数据来推动推理模型发展的做法提出质疑。
报告嘉宾:
李岳泰,华盛顿大学的二年级学生,主要研究方向为LLM reasoning,Synthetic dataset and Trustworthy AI。

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除