报告主题:通过 FP16 解决 LLM RL 中训推不一致问题|Defeating the Training-Inference Mismatch via FP16
报告日期:11月25日(周二)14:30-15:30
本期报告将由中国科学院大学&中国科学院自动化研究所博士周相鑫进行分享。大语言模型(LLM)的强化学习(RL)微调常因训练与推理策略间的数值不匹配而面临不稳定性问题。被广泛采用的 bfloat16 虽具有较大的动态范围,却会引入显著的舍入误差,破坏训练与推理的一致性。本研究表明,直接采用 float16 即可有效消除这种不匹配。该改动简单易行,现代框架均完全支持,仅需修改少量代码,且无需调整模型架构或学习算法。实验结果显示,统一使用 float16 在不同任务、算法和框架下均能实现更稳定的优化、更快的收敛速度和更优的性能。我们希望这些发现能推动学界重新审视强化学习微调中的精度权衡问题。周相鑫,中国科学院大学 & 中国科学院自动化研究所博士生五年级,曾在 字节跳动 AML / AI Lab / Seed、Sea AI Lab、小红书 Hi Lab 等机构实习。他的研究方向集中在大模型强化学习训练、扩散生成模型及其应用,并以第一作者在 ICML / NeurIPS / ICLR 等机器学习会议发表多篇论文。该工作完成于其在 Sea AI Lab 实习期间。扫码报名
更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢