Jetfire: Efficient and Accurate Transformer Pretraining with INT8 Data Flow and Per-Block Quantization

2024年03月19日
  • 简介
    预训练transformer通常耗时很长。完全量化训练(FQT)是加速预训练的一种有前途的方法。然而,大多数FQT方法采用量化-计算-反量化的过程,这往往会导致亚最优加速和显著的性能下降,因为transformer的高内存访问开销和低精度计算。在这项工作中,我们提出了Jetfire,一种专门针对transformer的高效准确的INT8训练方法。我们的方法采用INT8数据流来优化内存访问,并采用每个块的量化方法来保持预训练transformer的准确性。广泛的实验表明,我们的INT8 FQT方法的准确性与FP16训练基线相当,并且优于现有的transformer的INT8训练方法。此外,对于标准的transformer块,我们的方法相比FP16基线提供了1.42倍的端到端训练加速和1.49倍的内存减少。
  • 作者讲解
  • 图表
  • 解决问题
    如何在transformers的预训练中实现高效的INT8量化训练,以提高训练速度和减少内存占用?
  • 关键思路
    该论文提出了一种针对transformers的高效INT8量化训练方法Jetfire,采用INT8数据流和每个块的量化方法来优化内存访问和维持预训练transformers的准确性。
  • 其它亮点
    该方法在多个数据集上进行了实验,结果表明与FP16训练基线相比,INT8 FQT方法具有可比的准确性,并且优于现有的transformers INT8训练方法。在标准transformer块上,该方法相对于FP16基线提供了1.42x的端到端训练加速和1.49x的内存减少。
  • 相关研究
    最近的相关研究包括:《Fully Quantized Transformer for Machine Translation》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问