From Acceleration to Saturation: Scaling Behavior of Bootstrapped Language Model Pretraining

2025年10月08日
  • 简介
    自举式预训练(即重复使用一个已预训练的基础模型进行进一步的预训练,例如持续预训练或模型扩展)在降低从头开始训练语言模型的成本方面展现出良好前景。然而,这种方法的有效性尚不明确,尤其是在应用于过度预训练的基础模型时。在本研究中,我们通过实验分析了自举式预训练的缩放行为,发现其缩放效率以一种可预测的方式逐渐下降:第二阶段预训练所用token数量的缩放指数,会随着基础模型预训练所用token数量的增加而呈对数式减小。第一阶段和第二阶段token数量的联合影响可通过一个简单的缩放定律准确建模。这种饱和效应揭示了多阶段预训练策略中存在的一种根本性权衡:模型预训练得越充分,通过自举方式获得的额外收益就越少。我们的研究结果为高效训练语言模型提供了实用指导,同时也对过度预训练模型的再利用提出了重要考量。
  • 作者讲解
  • 图表
  • 解决问题
    论文研究了自举式预训练(bootstrapped pretraining)的有效性,特别是当基础模型已经被大量预训练(即过训练)时,继续通过持续预训练或模型扩展来提升性能的效果是否显著。这是一个重要但尚未被充分理解的问题,尤其是在大规模语言模型训练成本日益增加的背景下,如何高效复用已有模型成为关键挑战。
  • 关键思路
    作者提出并验证了一个简单的缩放定律,描述了在两阶段预训练中,第二阶段的训练token数量与第一阶段已使用token数量之间的关系:第二阶段的缩放指数随第一阶段训练量的对数增长而递减。这揭示了一个根本权衡——基础模型预训练越充分,后续自举带来的增益就越有限。该思路首次量化了多阶段预训练中的收益递减规律,为模型复用提供了理论指导。
  • 其它亮点
    实验系统地分析了不同预训练阶段的损失下降行为,在多个模型规模和数据量下验证了所提出的缩放律。研究使用了标准的语言建模任务和公开可用的数据集(如C4、The Pile),虽未明确提及开源代码,但其方法具有高度可复现性。一个值得深入的方向是如何设计更高效的增量训练策略以突破当前的饱和限制。
  • 相关研究
    近期相关研究包括:'Training Compute-Optimal Large Language Models'(Chinchilla, Hoffmann et al., 2022),强调了数据与模型规模的平衡;'Scaling Laws for Neural Language Models'(Kaplan et al., 2020),建立了单阶段预训练的缩放规律;以及'Continual Pre-training of Language Models: How to (re)use a Large Model?'(Penedo et al., 2023),探讨了持续预训练的实际效果。这些工作共同推动了对语言模型训练效率的理解。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问