- 简介量化是压缩大型语言模型的有效方法。虽然像W8A8和W4A16这样的流行技术能够有效地维持模型性能,但它们通常无法同时加速推理的预填充和解码阶段。W4A8是一种有前途的策略,可以加速这两个阶段,但通常会导致性能显著下降。为了解决这些问题,我们提出了QQQ,一种使用4位权重和8位激活的高质量四位量化方法。QQQ采用自适应平滑和基于Hessian的补偿,显著提高了量化模型的性能,而无需进行大量训练。此外,我们精心设计了W4A8 GEMM内核以增加推理速度。我们的专门通道W4A8 GEMM和分组W4A8 GEMM分别比FP16 GEMM实现了令人瞩目的速度提升3.67倍和3.29倍。我们广泛的实验表明,与现有最先进的LLM量化方法相比,QQQ实现了与之相当的性能,同时显著加速了推理,与FP16、W8A8和W4A16相比,分别实现了2.24倍、2.10倍和1.25倍的速度提升。
-
- 图表
- 解决问题本篇论文旨在解决量化大型语言模型时,常用的W8A8和W4A16方法虽然能够维持模型性能,但无法同时加速推理的预填充和解码阶段的问题。同时,W4A8方法通常会导致性能下降,因此本文提出了一种名为QQQ的质量四位量化方法,使用4位权重和8位激活,并采用自适应平滑和基于Hessian的补偿,显著提高量化模型的性能而无需进行大量训练。此外,本文还精心设计了W4A8 GEMM内核,以增加推理速度。
- 关键思路本文的关键思路是使用QQQ方法进行量化,并使用自适应平滑和基于Hessian的补偿来提高性能,同时设计了特殊的W4A8 GEMM内核以加速推理。
- 其它亮点本文的亮点包括:使用QQQ方法在不需要大量训练的情况下显著提高量化模型的性能;设计了特殊的W4A8 GEMM内核以加速推理,其中的per-channel W4A8 GEMM和per-group W4A8 GEMM分别比FP16 GEMM快3.67倍和3.29倍;在与FP16、W8A8和W4A16进行比较时,QQQ方法的性能与现有最先进的LLM量化方法相当,同时加速推理,速度提高了2.24倍、2.10倍和1.25倍。
- 在这个领域中,最近的相关研究包括:《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》、《Towards Accurate Post-Training Network Quantization via Bit-Split and Stitching》、《HAQ: Hardware-Aware Automated Quantization with Mixed Precision》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流