Simple and Scalable Strategies to Continually Pre-train Large Language Models

简介

大型语言模型（LLMs）通常会在数十亿个标记上进行预训练，一旦有新数据可用，就会重新开始该过程。一种更高效的解决方案是不断预训练这些模型，与重新训练相比，可以节省大量计算资源。然而，由新数据引起的分布偏移通常会导致以前数据的性能下降或对新数据的适应性不佳。在这项工作中，我们展示了一种简单且可扩展的组合学习率（LR）重新升温、LR重新衰减和重放以前数据的方法，足以在最终损失和语言模型（LM）评估基准方面与完全重新训练所有可用数据的性能相匹配。具体来说，我们在两个常用的LLM预训练数据集（英语$\rightarrow$英语）之间选择了一个弱但现实的分布偏移，并在大规模数据集大小（数百亿个标记）下进行了$405$M参数模型规模的强分布偏移（英语$\rightarrow$德语）的实验。我们还发现，在选择较大规模实验的弱但现实的偏移时，我们的持续学习策略也可以匹配10B参数LLM的重新训练基线。我们的结果表明，LLMs可以通过简单且可扩展的持续学习策略成功更新，仅使用一小部分计算资源即可匹配重新训练的基线。最后，受以前的工作启发，我们提出了替代余弦学习率调度的方法，以帮助规避由LR重新升温引起的遗忘，并且不受固定标记预算的限制。
图表
解决问题

论文旨在解决大型语言模型（LLMs）在新数据到来时重新训练的计算成本过高的问题，通过持续预训练的方式来节省计算资源，但新数据的分布变化会导致模型性能下降或适应性不佳，因此需要找到一种简单且可扩展的解决方案。
关键思路

论文提出了一种简单且可扩展的持续学习策略，包括学习率重新升温、学习率重新衰减和重放以前的数据，来解决新数据分布变化带来的问题，实现了与重新训练相当的性能，同时节省了大量计算资源。
其它亮点

论文在两个常用的LLM预训练数据集（英语→英语和英语→德语）上进行了实验，证明了持续学习策略可以成功更新LLMs，并且在10B参数LLM上也可以实现与重新训练相当的性能。此外，论文还提出了替代余弦学习率调度的方法，避免了学习率重新升温带来的遗忘问题。
相关研究

最近在这个领域中，也有一些相关的研究，例如《Continual Learning with Hypernetworks》、《Continual Learning for NLP with Knowledge Distillation》等。

Simple and Scalable Strategies to Continually Pre-train Large Language Models

评论