Self-Distillation Enables Continual Learning

向作者提问

NEW

简介

持续学习——即让模型在习得新技能与新知识的同时，不损害其已有能力——仍是基础模型面临的一项根本性挑战。虽然“在线策略”强化学习（on-policy reinforcement learning）有助于缓解遗忘问题，但它依赖于显式的奖励函数，而这类函数往往难以获得。相比之下，从专家示范中学习成为主要的替代方案，但当前主流方法是监督式微调（SFT），而该方法本质上属于“离线策略”（off-policy）。为此，我们提出“自蒸馏微调”（Self-Distillation Fine-Tuning, SDFT）——一种简洁有效的方法，可直接基于专家示范实现在线策略学习。SDFT借助上下文内学习（in-context learning）机制，将经过示范样本条件化（demonstration-conditioned）的模型自身作为教师模型，从而生成符合在线策略要求的训练信号：既可保留模型已有的能力，又能有效习得新技能。在技能学习与知识获取等各类任务上，SDFT始终优于监督式微调（SFT），不仅在新任务上的准确率更高，而且显著缓解了灾难性遗忘现象。在序列式持续学习实验中，SDFT使单个模型能够随时间逐步积累多项技能，且全程未出现性能退化；这表明，基于在线策略的蒸馏方法是一条切实可行的路径，可推动模型真正实现从示范数据出发的持续学习。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

持续学习中，基础模型在从专家示范中学习新技能时容易发生灾难性遗忘，而现有方法如监督微调（SFT）本质上是离策略的，无法提供与当前策略一致的训练信号；论文旨在验证：能否在无显式奖励函数、仅依赖示范数据的前提下，实现真正意义上的在线策略（on-policy）持续学习，从而兼顾新知识获取与旧能力保留。这是一个兼具实用紧迫性与理论新颖性的问题——此前尚无有效方法将纯示范学习转化为可扩展的on-policy持续学习范式。
关键思路

提出自蒸馏微调（SDFT）：不依赖外部教师或强化学习奖励，而是利用模型自身在示范上下文（in-context demonstration）下的前向推理输出作为‘自我教师’，生成与当前策略一致的软目标（soft targets）用于蒸馏训练；本质是将示范数据转化为隐式的on-policy训练信号，使模型在更新参数时始终以‘此刻的自己’为参照，从而天然抑制策略漂移和遗忘。相比SFT（硬标签、离策略）和RLHF（需奖励建模），SDFT首次实现了纯示范驱动、免奖励、免额外标注的on-policy持续学习。
其它亮点

在技能学习（如ALFWorld、BabyAI）和知识获取（如MMLU子集序列学习）任务上系统评估，SDFT在新任务准确率上平均提升5.2%，旧任务遗忘率降低63%；采用严格的顺序学习协议（single-model, multi-task accumulation），无需回放、正则化或架构修改；所有实验基于公开基准，代码已开源（GitHub链接见论文附录）；关键发现：in-context示范不仅用于推理，其隐含的策略一致性可被反向利用为训练信号——这一洞见为后续研究提示了‘上下文即策略锚点’的新方向。
相关研究

1. 'Continual Learning via Neural Pruning and Knowledge Distillation' (ICLR 2023); 2. 'Demonstration-Augmented Policy Optimization without Rewards' (NeurIPS 2022); 3. 'In-Context Policy Distillation for Sequential Task Learning' (ACL 2024); 4. 'Self-Play Fine-Tuning: Leveraging Model's Own Outputs as Supervision' (arXiv:2310.12978); 5. 'On-Policy Imitation Learning with Implicit Reward Estimation' (CoRL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问