华盛顿大学&MetaAI｜大规模视觉语言模型的稳定低精度训练新方法，可提供13-25%的加速

Stable and low-precision training for large-scale vision-language models

本文介绍了一种用于大规模视觉-语言模型的稳定低精度训练的新方法。

解决问题：

论文旨在解决大规模视觉-语言模型训练中的加速和稳定性问题。其中，加速训练使用了一种名为SwitchBack的线性层，通过int8量化训练，提高了13-25%的速度，同时在1B参数CLIP ViT-Huge模型上与bfloat16训练的性能相当。稳定训练则通过分析损失峰值，提出了一种名为StableAdamW的AdamW-Adafactor混合方法，避免了在训练CLIP ViT-Huge模型时出现的损失峰值，且优于梯度裁剪。

关键思路：

论文的关键思路是使用int8量化训练和StableAdamW混合方法，加速和稳定大规模视觉-语言模型的训练。相比当前领域的研究，这篇论文的思路在使用int8量化训练方面有新意，同时提出的StableAdamW方法也是一种新的稳定训练方法。

其他亮点：

论文的实验使用了1B参数CLIP ViT-Huge模型，使用了int8量化训练和StableAdamW混合方法，证明了这些方法的有效性。此外，论文还提到了使用层标度初始化为零的标准技术也能够成功地训练float8模型。论文没有开源代码，但提供了相关的实验细节和结果。值得进一步深入研究的工作包括使用其他大规模视觉-语言模型进行实验，以及进一步探索int8量化训练和StableAdamW混合方法的优化空间。

动机：加速和稳定大型语言-视觉模型的训练。
方法：引入SwitchBack，一种用于int8量化训练的线性层，可在与bfloat16训练性能相匹配的情况下提供13-25％的加速。提出了一种新的AdamW-Adafactor混合方法，稳定训练并避免了损失峰值。
优势：通过使用SwitchBack和StableAdamW，成功提高了大规模视觉-语言模型的训练速度和稳定性。

关于作者：

M Wortsman, T Dettmers, L Zettlemoyer, A Morcos, A Farhadi, L Schmidt

University of Washington & Meta AI

相关研究：

近期其他相关的研究包括《Training Large Models with On-device Intelligence》（来自Google）、《Training Vision-Language Models from Scratch》（来自Facebook AI Research）等。

论文摘要：

本文介绍了新的方法来加速和稳定大型语言-视觉模型的训练。为了加速训练，作者引入了SwitchBack，这是一个用于int8量化训练的线性层，可以提供13-25%的加速，同时在1B参数CLIP ViT-Huge模型中，与bfloat16训练的性能相匹配，误差不超过0.1个百分点。作者的主要关注点是int8，因为GPU对float8的支持很少，但他们也通过模拟分析了float8训练。

虽然SwitchBack对float8也有效，但作者表明，如果网络的训练和初始化使大的特征幅度受到抑制，那么标准技术也是成功的，这可以通过使用零进行层缩放初始化来实现。为了稳定训练，作者分析了损失峰值，并发现它们通常在AdamW第二个矩估计器低估平方梯度1-8次迭代后发生。因此，作者建议使用AdamW-Adafactor混合方法，称之为StableAdamW，因为它在训练CLIP ViT-Huge模型时避免了损失峰值，并且优于梯度裁剪。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

华盛顿大学&MetaAI｜大规模视觉语言模型的稳定低精度训练新方法，可提供13-25%的加速

评论列表

评论