Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training

向作者提问

NEW

简介

持续后训练（CPT）是一种流行且有效的技术，用于将基础模型（如多模态大语言模型）适配到特定且不断演化的下游任务中。尽管现有研究主要集中在数据回放、模型扩展或参数正则化等方法上，但对CPT中学习范式本身的基础作用却鲜有探讨。本文对两种核心的后训练范式进行了比较分析：监督微调（SFT）与强化微调（RFT），并研究了它们在持续后训练过程中对知识保留的不同影响。我们的实验在一个包含七个多样化多模态任务的基准测试集上进行，并选用Qwen2.5-VL-7B-Instruct作为基线模型进行持续后训练。研究得出了两个重要发现：（1）在连续学习多个下游任务的过程中，SFT会导致之前所学任务的灾难性遗忘。相比之下，RFT能够自然地保留先前知识，并实现与多任务训练相当的性能表现。（2）RFT成功保护甚至增强了模型在标准基准测试（例如 MMMU 和 MMLU-Pro）中的通用知识表现；而 SFT 则显著削弱了模型的通用能力。进一步分析表明，KL散度惩罚和链式思维推理等显式机制并非关键因素。我们发现，RFT固有的隐式正则化才是缓解遗忘问题的核心原因。最后，我们提出了一种基于rollout的实例筛选算法，以提升RFT的稳定性与效率。本研究全面展示了RFT作为一种稳健范式在持续后训练中的显著优势。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决持续后训练（Continual Post-Training, CPT）过程中模型对先前任务知识的遗忘问题，验证监督微调（SFT）和强化微调（RFT）在多模态大模型持续学习中的表现差异。这一问题是持续学习与基础模型适应领域的一个核心挑战。
关键思路

论文的核心思路是通过对比监督微调（SFT）与强化微调（RFT）两种范式，在持续后训练过程中评估它们对知识保留和模型泛化能力的影响。作者发现RFT具备内在的隐式正则化机制，能够有效缓解灾难性遗忘，而无需依赖显式机制如KL散度惩罚或思维链推理。
其它亮点

1. 实验基于七个多样化的多模态任务，使用Qwen2.5-VL-7B-Instruct作为基座模型，具有较强的代表性和实用性。 2. 研究发现RFT不仅防止知识遗忘，还能提升模型在标准基准（如MMMU、MMLU-Pro）上的表现，而SFT会导致显著的能力退化。 3. 提出了一种基于rollout的实例过滤算法以提升RFT的稳定性和效率。 4. 实验结果表明，RFT的表现可与多任务训练相媲美，为CPT提供了一个稳健的学习范式。 5. 未来工作可探索将RFT推广至更广泛的任务类型，并优化其实现效率。
相关研究

1. Continual Learning for Large Language Models: A Survey (2023) 2. Replay-based Continual Learning in Multimodal Transformers 3. Parameter-Efficient Continual Learning Through Adapter Modules 4. Regularization Strategies for Fine-tuning Pretrained Language Models 5. Reinforcement Learning for Prompt Tuning in Vision-Language Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问