SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

2025年01月28日
  • 简介
    监督微调(SFT)和强化学习(RL)是基础模型中广泛使用的后训练技术。然而,它们在增强模型泛化能力方面的作用尚不明确。本文研究了SFT和RL在泛化和记忆方面的差异,重点放在基于文本的规则变体和视觉变体上。我们引入了一种算术推理纸牌游戏GeneralPoints,并采用了V-IRL这一现实世界导航环境,以评估通过SFT和RL训练的模型如何在文本和视觉领域中推广到未见过的变体。结果显示,RL,尤其是使用基于结果的奖励进行训练时,在基于规则的文本和视觉变体之间具有更好的泛化能力。相比之下,SFT倾向于记忆训练数据,并且在处理分布外场景时表现不佳。进一步分析表明,RL提高了模型的基础视觉识别能力,从而增强了其在视觉领域的泛化能力。尽管RL的泛化能力更强,但我们发现SFT对于有效的RL训练仍然至关重要;SFT稳定了模型的输出格式,使得后续的RL能够实现性能提升。这些发现展示了RL在复杂、多模态任务中获取可泛化知识的能力。
  • 图表
  • 解决问题
    该论文试图研究监督微调(SFT)和强化学习(RL)在提升基础模型泛化能力方面的差异,特别是它们如何影响模型对文本规则变体和视觉变体的泛化与记忆。这是一个相对较新的问题,尤其是在多模态任务中评估这两种技术的具体效果。
  • 关键思路
    论文的关键思路是通过引入GeneralPoints(一个算术推理卡牌游戏)和V-IRL(一个现实世界的导航环境)来系统地比较SFT和RL在文本和视觉领域的泛化能力。研究表明,RL在处理未见过的变体时表现出更强的泛化能力,而SFT则倾向于记忆训练数据。此外,论文指出SFT在稳定模型输出格式方面的作用对于有效的RL训练至关重要。
  • 其它亮点
    1. 使用GeneralPoints和V-IRL这两个新颖的任务环境进行实验设计。 2. 发现RL在文本和视觉领域都表现出更好的泛化能力,特别是在基于结果的奖励机制下。 3. SFT虽然有助于稳定模型输出格式,但其泛化能力较弱。 4. 研究表明RL能够提高模型的基础视觉识别能力,从而增强其在视觉领域的泛化性能。 5. 论文强调了SFT作为RL训练前预处理步骤的重要性。 6. 没有提及是否开源代码,但提供了详细的实验设置,为未来的研究提供了方向。
  • 相关研究
    最近在这个领域中,还有其他相关的研究,例如: 1. 'Fine-Tuning Pretrained Models for Low-Resource Text Classification' 2. 'Reinforcement Learning with Human Feedback for Language Generation' 3. 'Exploring the Limits of Transfer Learning in Multimodal Tasks' 4. 'A Survey on Deep Reinforcement Learning for Robotics' 这些研究探讨了SFT和RL在不同任务中的应用,但本论文的独特之处在于它专注于泛化和记忆之间的平衡,并且在多模态环境中进行了广泛的实验验证。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论