Simple and Scalable Strategies to Continually Pre-train Large Language Models

简介

大型语言模型（LLMs）通常会在数十亿个标记上进行预训练，一旦有新数据可用，就会重新开始这个过程。一个更加高效的解决方案是不断地预训练这些模型，相比重新训练可以节省大量计算资源。然而，由新数据引起的分布变化通常会导致以前数据的性能下降或新数据的适应性不佳。在这项工作中，我们展示了一种简单且可扩展的学习率（LR）重新升温、LR重新衰减和重放以前数据的组合，足以匹配使用所有可用数据从头开始完全重新训练的性能，这是通过最终损失和语言模型（LM）评估基准来衡量的。具体而言，我们展示了在两个常用的LLM预训练数据集（英语$\rightarrow$英语）之间的一个弱但现实的分布变化和一个更强的分布变化（英语$\rightarrow$德语）下，具有$405$M参数模型规模和大型数据集大小（数百亿个标记）的情况下，这种方法是可行的。选择较大规模的实验的弱但现实的变化，我们还发现我们的持续学习策略可以匹配10B参数LLM的重新训练基线。我们的结果表明，LLMs可以通过简单和可扩展的持续学习策略成功地进行更新，而只使用一小部分计算资源即可匹配重新训练的基线。最后，受以前的工作启发，我们提出了替代余弦学习率调度的方法，帮助规避由LR重新升温引起的遗忘，并且不受固定标记预算的限制。
图表
解决问题

论文旨在解决大型语言模型（LLMs）在新数据到来时需要重新训练的计算成本高的问题，提出了一种简单且可扩展的持续学习策略，以匹配从头开始重新训练的性能。
关键思路

论文提出了一种简单的持续学习策略，包括学习率（LR）重新升温、LR重新衰减和重放以前的数据，以应对新数据带来的分布变化。
其它亮点

论文的实验结果表明，这种持续学习策略可以在大数据集下匹配从头开始重新训练的性能，同时只使用了一小部分计算资源。此外，论文还提出了一些替代余弦学习率计划的方法，以避免LR重新升温引起的遗忘问题。
相关研究

最近的相关研究包括《Efficient Lifelong Learning with A-GEM》和《Continual Learning with Deep Generative Replay》。

Simple and Scalable Strategies to Continually Pre-train Large Language Models

评论