Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs

简介

现代大型语言模型通过架构改进已经建立了最先进的性能，但是推理仍然需要显著的计算成本。为了降低推理成本，后训练量化（PTQ）已经成为一种流行的方法，将权重和激活量化为较低的精度，例如INT8。在本文中，我们揭示了GLU变体中激活量化的挑战，这些变体广泛用于现代LLM的前馈网络（FFN），例如LLaMA系列。问题在于，由于GLU变体中激活的过大幅度，导致了严重的局部量化误差，从而显著降低了量化LLM的性能。我们将这些激活称为激活尖峰。我们进一步观察到激活尖峰的系统模式：1）激活尖峰发生在特定层的FFN中，特别是在早期和晚期层中；2）激活尖峰专门用于一些标记，而不是在整个序列中共享。基于我们的观察，我们提出了两种经验方法，Quantization-free Module（QFeM）和Quantization-free Prefix（QFeP），以在量化过程中隔离激活尖峰。我们的大量实验证实了所提出的方法在激活量化方面的有效性，特别是针对带有GLU变体的最新LLM的粗粒度方案，包括LLaMA-2/3、Mistral、Mixtral、SOLAR和Gemma。特别是，我们的方法增强了当前的缓解技术（例如SmoothQuant），而这些技术无法控制激活尖峰。代码可在https://github.com/onnoo/activation-spikes上找到。
图表
解决问题

本文试图解决GLU变体中激活量化的挑战，这些变体广泛用于现代LLMs的前馈网络（FFN）中，例如LLaMA系列。激活量化中的严重局部量化误差会显著降低量化LLM的性能。
关键思路

本文提出了两种经验方法，Quantization-free Module（QFeM）和Quantization-free Prefix（QFeP），以在量化期间隔离激活峰值。这些方法有效地解决了现有减轻技术（例如SmoothQuant）无法控制激活峰值的问题。
其它亮点

本文观察到激活峰值的系统模式：1）激活峰值发生在特定层的FFN中，特别是在早期和晚期层中；2）激活峰值专门用于一对令牌，而不是跨序列共享。作者在多个最新的LLMs中验证了所提出方法的有效性，并开源了代码。
相关研究

最近的相关研究包括《Post-training Quantization for Transformer-based Language Models: A Comprehensive Survey》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。

Mitigating Quantization Errors Due to Activation Spikes in GLU-Based LLMs

评论