QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning

简介

基于Transformer的模型已经在计算机视觉（CV）和自然语言处理（NLP）领域广受欢迎。然而，在后训练线性量化过程中，会出现显著的挑战，导致推理准确率明显降低。我们的研究重点是揭示这些准确性下降的潜在原因，并提出一种适合量化的微调方法——QuantTune。首先，我们的分析揭示出，平均而言，65％的量化误差是由于目标Transformer-based模型中异常值的动态范围放大效应导致的精度损失。其次，QuantTune根据异常激活的偏差调整权重，并有效地约束了问题激活的动态范围。因此，它成功地减轻了异常值对量化模型推理准确性的负面影响。最后，QuantTune可以无缝地集成到微调过程的反向传播中，无需在推理软件和硬件设计中增加额外的复杂性。我们的方法在一系列基于Transformer的模型中展示了显着的后训练量化改进，包括ViT、Bert-base和OPT。与顶级校准方法相比，QuantTune在8位量化和7位量化下将准确率下降降低了12.09％和33.8％，在ViT模型中的表现超过了现有技术解决方案的18.84％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决在Transformer-based模型进行后训练量化时的精度下降问题。
关键思路

提出一种量化友好的微调方法QuantTune，通过调整权重来约束异常激活的动态范围，从而有效减轻异常值对量化模型推理精度的负面影响。
其它亮点

实验表明，QuantTune在ViT、Bert-base和OPT等多个Transformer-based模型上均有显著的性能提升，相比现有的校准方法，8位量化下的精度损失降低了12.09％，7位量化下的精度损失降低了33.8％。
相关研究

与本研究相关的研究包括：《Post-Training 4-bit Quantization of Transformer-Based Language Models》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。

QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning

提问交流

提问交流