- 简介预训练transformer通常耗时很长。完全量化训练(FQT)是加速预训练的一种有前途的方法。然而,大多数FQT方法采用量化-计算-反量化的过程,这往往会导致亚最优加速和显著的性能下降,因为transformer的高内存访问开销和低精度计算。在这项工作中,我们提出了Jetfire,一种专门针对transformer的高效准确的INT8训练方法。我们的方法采用INT8数据流来优化内存访问,并采用每个块的量化方法来保持预训练transformer的准确性。广泛的实验表明,我们的INT8 FQT方法的准确性与FP16训练基线相当,并且优于现有的transformer的INT8训练方法。此外,对于标准的transformer块,我们的方法相比FP16基线提供了1.42倍的端到端训练加速和1.49倍的内存减少。
-
- 图表
- 解决问题如何在transformers的预训练中实现高效的INT8量化训练,以提高训练速度和减少内存占用?
- 关键思路该论文提出了一种针对transformers的高效INT8量化训练方法Jetfire,采用INT8数据流和每个块的量化方法来优化内存访问和维持预训练transformers的准确性。
- 其它亮点该方法在多个数据集上进行了实验,结果表明与FP16训练基线相比,INT8 FQT方法具有可比的准确性,并且优于现有的transformers INT8训练方法。在标准transformer块上,该方法相对于FP16基线提供了1.42x的端到端训练加速和1.49x的内存减少。
- 最近的相关研究包括:《Fully Quantized Transformer for Machine Translation》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流