- 简介基于Transformer的模型已经在计算机视觉(CV)和自然语言处理(NLP)领域广受欢迎。然而,在后训练线性量化过程中,会出现显著的挑战,导致推理准确率明显降低。我们的研究重点是揭示这些准确性下降的潜在原因,并提出一种适合量化的微调方法——QuantTune。首先,我们的分析揭示出,平均而言,65%的量化误差是由于目标Transformer-based模型中异常值的动态范围放大效应导致的精度损失。其次,QuantTune根据异常激活的偏差调整权重,并有效地约束了问题激活的动态范围。因此,它成功地减轻了异常值对量化模型推理准确性的负面影响。最后,QuantTune可以无缝地集成到微调过程的反向传播中,无需在推理软件和硬件设计中增加额外的复杂性。我们的方法在一系列基于Transformer的模型中展示了显着的后训练量化改进,包括ViT、Bert-base和OPT。与顶级校准方法相比,QuantTune在8位量化和7位量化下将准确率下降降低了12.09%和33.8%,在ViT模型中的表现超过了现有技术解决方案的18.84%。
-
- 图表
- 解决问题解决在Transformer-based模型进行后训练量化时的精度下降问题。
- 关键思路提出一种量化友好的微调方法QuantTune,通过调整权重来约束异常激活的动态范围,从而有效减轻异常值对量化模型推理精度的负面影响。
- 其它亮点实验表明,QuantTune在ViT、Bert-base和OPT等多个Transformer-based模型上均有显著的性能提升,相比现有的校准方法,8位量化下的精度损失降低了12.09%,7位量化下的精度损失降低了33.8%。
- 与本研究相关的研究包括:《Post-Training 4-bit Quantization of Transformer-Based Language Models》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流