- 简介现代大型语言模型通过架构改进已经建立了最先进的性能,但是推理仍然需要显著的计算成本。为了降低推理成本,后训练量化(PTQ)已经成为一种流行的方法,将权重和激活量化为较低的精度,例如INT8。在本文中,我们揭示了GLU变体中激活量化的挑战,这些变体广泛用于现代LLM的前馈网络(FFN),例如LLaMA系列。问题在于,由于GLU变体中激活的过大幅度,导致了严重的局部量化误差,从而显著降低了量化LLM的性能。我们将这些激活称为激活尖峰。我们进一步观察到激活尖峰的系统模式:1)激活尖峰发生在特定层的FFN中,特别是在早期和晚期层中;2)激活尖峰专门用于一些标记,而不是在整个序列中共享。基于我们的观察,我们提出了两种经验方法,Quantization-free Module(QFeM)和Quantization-free Prefix(QFeP),以在量化过程中隔离激活尖峰。我们的大量实验证实了所提出的方法在激活量化方面的有效性,特别是针对带有GLU变体的最新LLM的粗粒度方案,包括LLaMA-2/3、Mistral、Mixtral、SOLAR和Gemma。特别是,我们的方法增强了当前的缓解技术(例如SmoothQuant),而这些技术无法控制激活尖峰。代码可在https://github.com/onnoo/activation-spikes上找到。
- 图表
- 解决问题本文试图解决GLU变体中激活量化的挑战,这些变体广泛用于现代LLMs的前馈网络(FFN)中,例如LLaMA系列。激活量化中的严重局部量化误差会显著降低量化LLM的性能。
- 关键思路本文提出了两种经验方法,Quantization-free Module(QFeM)和Quantization-free Prefix(QFeP),以在量化期间隔离激活峰值。这些方法有效地解决了现有减轻技术(例如SmoothQuant)无法控制激活峰值的问题。
- 其它亮点本文观察到激活峰值的系统模式:1)激活峰值发生在特定层的FFN中,特别是在早期和晚期层中;2)激活峰值专门用于一对令牌,而不是跨序列共享。作者在多个最新的LLMs中验证了所提出方法的有效性,并开源了代码。
- 最近的相关研究包括《Post-training Quantization for Transformer-based Language Models: A Comprehensive Survey》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。
沙发等你来抢
去评论
评论
沙发等你来抢