- 简介我们提出了一种简单但有理论依据的监督微调(SFT)改进方法,用于大型语言模型(LLM),以解决其在泛化能力方面相较于强化学习(RL)的不足。通过数学分析,我们发现标准SFT的梯度隐式地编码了一种有问题的奖励结构,这可能会严重限制模型的泛化能力。为了解决这个问题,我们提出了动态微调(DFT),通过根据每个token的概率动态调整目标函数,从而稳定每个token的梯度更新。令人惊喜的是,这一行代码的改动在多个具有挑战性的基准测试和基础模型上显著优于标准SFT,展现出显著提升的泛化能力。此外,我们的方法在离线强化学习场景中也表现出具有竞争力的结果,提供了一种更简单但有效的替代方案。本研究将理论洞察与实际解决方案相结合,大幅提升了SFT的性能。代码将在以下网址发布:https://github.com/yongliang-wu/DFT。
- 图表
- 解决问题论文试图解决监督微调(SFT)在大型语言模型(LLM)中泛化能力有限的问题,相较于强化学习(RL)方法,SFT的表现存在明显不足。
- 关键思路论文提出了一种名为动态微调(DFT)的方法,通过动态调整目标函数以稳定每个token的梯度更新。这种思路基于数学分析,发现标准SFT的梯度隐含了限制模型泛化能力的不良奖励结构。DFT通过简单的代码修改实现了显著的性能提升。
- 其它亮点1. DFT是一种简单且理论驱动的改进方案,仅需修改一行代码即可实现。 2. 实验表明,DFT在多个具有挑战性的基准测试和基础模型上显著优于标准SFT。 3. 该方法在离线强化学习设置中也表现出竞争力,提供了一种更简单且有效的替代方案。 4. 论文代码已开源(https://github.com/yongliang-wu/DFT),提高了研究的可复现性。 5. 未来研究可探索DFT在更广泛的模型和任务上的应用,以及其与更复杂RL方法的结合。
- 1. Recent Advances in Supervised Fine-Tuning for Language Models 2. Reinforcement Learning from Human Feedback: A Survey 3. Offline Reinforcement Learning: Challenges and Opportunities 4. Improving Language Model Generalization through Gradient Regularization 5. Dynamic Objective Rescaling in Neural Network Training
沙发等你来抢
去评论
评论
沙发等你来抢