Replaying pre-training data improves fine-tuning

2026年03月05日
  • 简介
    为获取面向特定领域(例如数学)的语言模型,当前主流范式是:先在海量通用网络文本上进行预训练,再利用相对有限的该领域数据进行微调。通常,通用数据仅在微调阶段才与目标领域数据混合使用,以防止模型在微调过程中严重遗忘通用领域的知识。然而,我们出乎意料地发现,在微调过程中重新引入(即“回放”)通用数据,反而能提升模型在(与通用领域关联较弱的)目标任务上的性能。具体而言,在一个受控的预训练实验环境中——目标领域数据量为400万词符、总训练数据量为40亿词符、模型参数量为1.5亿——通用数据的回放在微调阶段可将目标数据的利用效率最高提升1.87倍,在中期训练(mid-training)阶段则最高提升2.06倍。我们进一步分析了在预训练阶段即逐步引入目标领域数据的不同数据调度策略,结果表明:当预训练中所含目标领域数据越少时,通用数据回放带来的增益越显著。我们在实际应用中验证了该方法的有效性:对参数量达80亿的模型进行微调时,采用通用数据回放策略,使智能体驱动的网页导航成功率提升了4.5%,巴斯克语问答任务的准确率提升了2%。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决领域适配中‘ catastrophic forgetting’的常规假设问题,即在将通用预训练语言模型微调至特定目标领域(如数学、Basque问答)时,是否必须避免或最小化通用数据参与以防止遗忘?作者验证了一个反直觉假设:在微调阶段主动‘重放’(replay)通用数据,反而能提升目标领域性能,尤其在目标数据稀缺时。这不是全新问题,但挑战了当前主流实践范式。
  • 关键思路
    核心思路是引入‘通用数据重放’(generic replay)作为显式正则化机制——在目标域微调或中期训练(mid-training)过程中,按比例混合原始通用语料(而非仅依赖预训练记忆),从而稳定优化轨迹、缓解过拟合、增强泛化。新意在于颠覆‘replay = harmful for domain specialization’的默认认知,证明适度通用数据注入可提升目标任务的数据效率和最终性能,且效果随预训练中目标数据占比降低而增强。
  • 其它亮点
    实验设计严谨:在可控预训练环境下(4M目标token / 4B总token / 150M参数模型)量化重放收益(1.87×微调、2.06×mid-training数据效率提升);验证扩展性:成功应用于8B参数模型,在真实场景中提升agentic web navigation成功率4.5%、Basque QA准确率2%;发现关键规律——重放增益与预训练阶段目标数据量负相关;论文未明确提及开源代码,但强调‘controlled pre-training environment’暗示实验可复现;值得深入的方向包括:重放数据采样策略(去偏/难度感知)、理论解释(为何通用数据助益低资源领域)、以及在多阶段持续学习中的系统化调度设计。
  • 相关研究
    Recent related works include: 'LoRA Meets Pretraining: Efficient Domain Adaptation Without Full Fine-Tuning' (ICLR 2024); 'Continual Pretraining: Adapting Language Models to New Domains Without Catastrophic Forgetting' (ACL 2023); 'Data Mixing Strategies for Domain Adaptation in LLMs' (NeurIPS 2023 Workshop); 'The Curse of Memory: When More Pretraining Data Hurts Downstream Specialization' (EMNLP 2023); 'Replay-Based Continual Learning for Language Models' (ICML 2022).
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问