
报告主题:单样本强化学习,显著提升大语言模型在数学任务上的表现
报告日期:05月22日(周四)10:30-11:30
可验证奖励强化学习(RLVR)是现在常用的用于提升大语言模型数学推理能力的方法。本文发现,仅使用一个训练示例进行RLVR训练(1-shot RLVR)在一些模型上即可达到与用数千个数据进行RLVR训练相同的巨大提升。以 Qwen2.5-Math-1.5B 为,模型在 MATH500 基准上的准确率由 36.0% 提升至 73.6%,并将六大常见数学推理基准的平均性能从 17.6% 提高至 35.7%,效果与使用 1.2k 示范集相当;在多种模型(如 Qwen2.5-Math-7B、Llama3.2-3B-Instruct 等)、多种算法(GRPO、PPO)和不同示例上均可观察到明显增长。同时还发现,通过一个示例进行RLVR训练即可出现跨领域泛化、自我反思加强和“后饱和泛化”等现象,并证实熵损失等探索机制在该方法中发挥了关键作用。代码,模型和数据都已经开源:https://github.com/ypwang61/One-Shot-RLVR王宜平是华盛顿大学西雅图分校的二年级博士生,导师是杜少雷教授。他的研究兴趣包括大语言模型数学推理和AI4Math,数据选择,对大语言模型训练动力学的理论理解,以及多模态评估(如视频生成)等方面。
扫码报名
更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢