Spike No More: Stabilizing the Pre-training of Large Language Models

简介

在大型语言模型的预训练过程中，经常会出现损失值的突然上升。这些突然上升会降低大型语言模型的性能，有时会破坏预训练的过程。由于预训练需要大量的计算资源，我们应该避免这种情况的发生。为了研究损失值突然上升的原因，本研究关注内部层梯度。通过理论分析，我们提出了两种梯度爆炸的原因，并提供了预防梯度爆炸的要求。此外，我们介绍了初始化方法和对嵌入进行简单修改的组合方法，以满足这些要求。我们进行了各种实验，以经验性地验证我们的理论分析。实验结果表明，这种组合方法有效地防止了预训练过程中的损失值突然上升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型语言模型预训练过程中出现损失峰值的问题，通过分析内部层的梯度，提出了两种梯度爆炸的原因，并提供了防止梯度爆炸的要求。
关键思路

论文提出了一种初始化方法和嵌入的简单修改的组合方法，以满足防止梯度爆炸的要求。
其它亮点

论文通过理论分析和实验验证，证明了所提出的方法可以有效地防止预训练过程中出现损失峰值的问题。实验使用了不同的数据集，并开源了代码。
相关研究

近期相关研究包括《Exploding Gradients in Deep Neural Networks》、《Understanding the Difficulty of Training Deep Feedforward Neural Networks》等。

Spike No More: Stabilizing the Pre-training of Large Language Models

提问交流

提问交流