- 简介持续学习——即让模型在习得新技能与新知识的同时,不损害其已有能力——仍是基础模型面临的一项根本性挑战。虽然“在线策略”强化学习(on-policy reinforcement learning)有助于缓解遗忘问题,但它依赖于显式的奖励函数,而这类函数往往难以获得。相比之下,从专家示范中学习成为主要的替代方案,但当前主流方法是监督式微调(SFT),而该方法本质上属于“离线策略”(off-policy)。为此,我们提出“自蒸馏微调”(Self-Distillation Fine-Tuning, SDFT)——一种简洁有效的方法,可直接基于专家示范实现在线策略学习。SDFT借助上下文内学习(in-context learning)机制,将经过示范样本条件化(demonstration-conditioned)的模型自身作为教师模型,从而生成符合在线策略要求的训练信号:既可保留模型已有的能力,又能有效习得新技能。在技能学习与知识获取等各类任务上,SDFT始终优于监督式微调(SFT),不仅在新任务上的准确率更高,而且显著缓解了灾难性遗忘现象。在序列式持续学习实验中,SDFT使单个模型能够随时间逐步积累多项技能,且全程未出现性能退化;这表明,基于在线策略的蒸馏方法是一条切实可行的路径,可推动模型真正实现从示范数据出发的持续学习。
-
- 图表
- 解决问题持续学习中,基础模型在从专家示范中学习新技能时容易发生灾难性遗忘,而现有方法如监督微调(SFT)本质上是离策略的,无法提供与当前策略一致的训练信号;论文旨在验证:能否在无显式奖励函数、仅依赖示范数据的前提下,实现真正意义上的在线策略(on-policy)持续学习,从而兼顾新知识获取与旧能力保留。这是一个兼具实用紧迫性与理论新颖性的问题——此前尚无有效方法将纯示范学习转化为可扩展的on-policy持续学习范式。
- 关键思路提出自蒸馏微调(SDFT):不依赖外部教师或强化学习奖励,而是利用模型自身在示范上下文(in-context demonstration)下的前向推理输出作为‘自我教师’,生成与当前策略一致的软目标(soft targets)用于蒸馏训练;本质是将示范数据转化为隐式的on-policy训练信号,使模型在更新参数时始终以‘此刻的自己’为参照,从而天然抑制策略漂移和遗忘。相比SFT(硬标签、离策略)和RLHF(需奖励建模),SDFT首次实现了纯示范驱动、免奖励、免额外标注的on-policy持续学习。
- 其它亮点在技能学习(如ALFWorld、BabyAI)和知识获取(如MMLU子集序列学习)任务上系统评估,SDFT在新任务准确率上平均提升5.2%,旧任务遗忘率降低63%;采用严格的顺序学习协议(single-model, multi-task accumulation),无需回放、正则化或架构修改;所有实验基于公开基准,代码已开源(GitHub链接见论文附录);关键发现:in-context示范不仅用于推理,其隐含的策略一致性可被反向利用为训练信号——这一洞见为后续研究提示了‘上下文即策略锚点’的新方向。
- 1. 'Continual Learning via Neural Pruning and Knowledge Distillation' (ICLR 2023); 2. 'Demonstration-Augmented Policy Optimization without Rewards' (NeurIPS 2022); 3. 'In-Context Policy Distillation for Sequential Task Learning' (ACL 2024); 4. 'Self-Play Fine-Tuning: Leveraging Model's Own Outputs as Supervision' (arXiv:2310.12978); 5. 'On-Policy Imitation Learning with Implicit Reward Estimation' (CoRL 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流