Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization

简介

预训练transformer通常耗时很长。完全量化训练（FQT）是加速预训练的一种有前途的方法。然而，大多数FQT方法采用量化-计算-反量化的过程，这往往会导致亚最优加速和显著的性能下降，因为transformer的高内存访问开销和低精度计算。在这项工作中，我们提出了Jetfire，一种专门针对transformer的高效准确的INT8训练方法。我们的方法采用INT8数据流来优化内存访问，并采用每个块的量化方法来保持预训练transformer的准确性。广泛的实验表明，我们的INT8 FQT方法的准确性与FP16训练基线相当，并且优于现有的transformer的INT8训练方法。此外，对于标准的transformer块，我们的方法相比FP16基线提供了1.42倍的端到端训练加速和1.49倍的内存减少。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在transformers的预训练中实现高效的INT8量化训练，以提高训练速度和减少内存占用？
关键思路

该论文提出了一种针对transformers的高效INT8量化训练方法Jetfire，采用INT8数据流和每个块的量化方法来优化内存访问和维持预训练transformers的准确性。
其它亮点

该方法在多个数据集上进行了实验，结果表明与FP16训练基线相比，INT8 FQT方法具有可比的准确性，并且优于现有的transformers INT8训练方法。在标准transformer块上，该方法相对于FP16基线提供了1.42x的端到端训练加速和1.49x的内存减少。
相关研究

最近的相关研究包括：《Fully Quantized Transformer for Machine Translation》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。

Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization

提问交流

提问交流