- 简介持续后训练(CPT)是一种流行且有效的技术,用于将基础模型(如多模态大语言模型)适配到特定且不断演化的下游任务中。尽管现有研究主要集中在数据回放、模型扩展或参数正则化等方法上,但对CPT中学习范式本身的基础作用却鲜有探讨。本文对两种核心的后训练范式进行了比较分析:监督微调(SFT)与强化微调(RFT),并研究了它们在持续后训练过程中对知识保留的不同影响。 我们的实验在一个包含七个多样化多模态任务的基准测试集上进行,并选用Qwen2.5-VL-7B-Instruct作为基线模型进行持续后训练。研究得出了两个重要发现: (1)在连续学习多个下游任务的过程中,SFT会导致之前所学任务的灾难性遗忘。相比之下,RFT能够自然地保留先前知识,并实现与多任务训练相当的性能表现。 (2)RFT成功保护甚至增强了模型在标准基准测试(例如 MMMU 和 MMLU-Pro)中的通用知识表现;而 SFT 则显著削弱了模型的通用能力。进一步分析表明,KL散度惩罚和链式思维推理等显式机制并非关键因素。我们发现,RFT固有的隐式正则化才是缓解遗忘问题的核心原因。 最后,我们提出了一种基于rollout的实例筛选算法,以提升RFT的稳定性与效率。本研究全面展示了RFT作为一种稳健范式在持续后训练中的显著优势。
-
- 图表
- 解决问题论文旨在解决持续后训练(Continual Post-Training, CPT)过程中模型对先前任务知识的遗忘问题,验证监督微调(SFT)和强化微调(RFT)在多模态大模型持续学习中的表现差异。这一问题是持续学习与基础模型适应领域的一个核心挑战。
- 关键思路论文的核心思路是通过对比监督微调(SFT)与强化微调(RFT)两种范式,在持续后训练过程中评估它们对知识保留和模型泛化能力的影响。作者发现RFT具备内在的隐式正则化机制,能够有效缓解灾难性遗忘,而无需依赖显式机制如KL散度惩罚或思维链推理。
- 其它亮点1. 实验基于七个多样化的多模态任务,使用Qwen2.5-VL-7B-Instruct作为基座模型,具有较强的代表性和实用性。 2. 研究发现RFT不仅防止知识遗忘,还能提升模型在标准基准(如MMMU、MMLU-Pro)上的表现,而SFT会导致显著的能力退化。 3. 提出了一种基于rollout的实例过滤算法以提升RFT的稳定性和效率。 4. 实验结果表明,RFT的表现可与多任务训练相媲美,为CPT提供了一个稳健的学习范式。 5. 未来工作可探索将RFT推广至更广泛的任务类型,并优化其实现效率。
- 1. Continual Learning for Large Language Models: A Survey (2023) 2. Replay-based Continual Learning in Multimodal Transformers 3. Parameter-Efficient Continual Learning Through Adapter Modules 4. Regularization Strategies for Fine-tuning Pretrained Language Models 5. Reinforcement Learning for Prompt Tuning in Vision-Language Models
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流