大型语言模型(LLMs)通常会在数十亿个标记上进行预训练,一旦有新数据可用,就会重新开始该过程。一种更高效的解决方案是不断预训练这些模型,与重新训练相比,可以节省大量计算资源。然而,由新数据引起的分布偏移通常会导致以前数据的性能下降或对新数据的适应性不佳。在这项工作中,我们展示了一种简单且可扩展的组合学习率(LR)重新升温、LR重新衰减和重放以前数据的方法,足以在最终损失和语言模型(LM)评估基准方面与完全重新训练所有可用数据的性能相匹配。具体来说,我们在两个常用的LLM预训练数据集(英语$\rightarrow$英语)之间选择了一个弱但现实的分布偏移,并在大规模数据集大小(数百亿个标记)下进行了$405$M参数模型规模的强分布偏移(英语$\rightarrow$德语)的实验。我们还发现,在选择较大规模实验的弱但现实的偏移时,我们的持续学习策略也可以匹配10B参数LLM的重新训练基线。我们的结果表明,LLMs可以通过简单且可扩展的持续学习策略成功更新,仅使用一小部分计算资源即可匹配重新训练的基线。最后,受以前的工作启发,我们提出了替代余弦学习率调度的方法,以帮助规避由LR重新升温引起的遗忘,并且不受固定标记预算的限制。
提问交流