Stable and low-precision training for large-scale vision-language models

本文介绍了一种用于大规模视觉-语言模型的稳定低精度训练的新方法。

解决问题:

论文旨在解决大规模视觉-语言模型训练中的加速和稳定性问题。其中,加速训练使用了一种名为SwitchBack的线性层,通过int8量化训练,提高了13-25%的速度,同时在1B参数CLIP ViT-Huge模型上与bfloat16训练的性能相当。稳定训练则通过分析损失峰值,提出了一种名为StableAdamW的AdamW-Adafactor混合方法,避免了在训练CLIP ViT-Huge模型时出现的损失峰值,且优于梯度裁剪。

关键思路:

论文的关键思路是使用int8量化训练和StableAdamW混合方法,加速和稳定大规模视觉-语言模型的训练。相比当前领域的研究,这篇论文的思路在使用int8量化训练方面有新意,同时提出的StableAdamW方法也是一种新的稳定训练方法。

其他亮点:

论文的实验使用了1B参数CLIP ViT-Huge模型,使用了int8量化训练和StableAdamW混合方法,证明了这些方法的有效性。此外,论文还提到了使用层标度初始化为零的标准技术也能够成功地训练float8模型。论文没有开源代码,但提供了相关的实验细节和结果。值得进一步深入研究的工作包括使用其他大规模视觉-语言模型进行实验,以及进一步探索int8量化训练和StableAdamW混合方法的优化空间。

  • 动机:加速和稳定大型语言-视觉模型的训练。
  • 方法:引入SwitchBack,一种用于int8量化训练的线性层,可在与bfloat16训练性能相匹配的情况下提供13-25%的加速。提出了一种新的AdamW-Adafactor混合方法,稳定训练并避免了损失峰值。
  • 优势:通过使用SwitchBack和StableAdamW,成功提高了大规模视觉-语言模型的训练速度和稳定性。

关于作者:

M Wortsman, T Dettmers, L Zettlemoyer, A Morcos, A Farhadi, L Schmidt

University of Washington & Meta AI

相关研究:

近期其他相关的研究包括《Training Large Models with On-device Intelligence》(来自Google)、《Training Vision-Language Models from Scratch》(来自Facebook AI Research)等。

论文摘要:

本文介绍了新的方法来加速和稳定大型语言-视觉模型的训练。为了加速训练,作者引入了SwitchBack,这是一个用于int8量化训练的线性层,可以提供13-25%的加速,同时在1B参数CLIP ViT-Huge模型中,与bfloat16训练的性能相匹配,误差不超过0.1个百分点。作者的主要关注点是int8,因为GPU对float8的支持很少,但他们也通过模拟分析了float8训练。

虽然SwitchBack对float8也有效,但作者表明,如果网络的训练和初始化使大的特征幅度受到抑制,那么标准技术也是成功的,这可以通过使用零进行层缩放初始化来实现。为了稳定训练,作者分析了损失峰值,并发现它们通常在AdamW第二个矩估计器低估平方梯度1-8次迭代后发生。因此,作者建议使用AdamW-Adafactor混合方法,称之为StableAdamW,因为它在训练CLIP ViT-Huge模型时避免了损失峰值,并且优于梯度裁剪。

内容中包含的图片若涉及版权问题,请及时与我们联系删除