QQQ: Quality Quattuor-Bit Quantization for Large Language Models

向作者提问

NEW

简介

量化是压缩大型语言模型的有效方法。虽然像W8A8和W4A16这样的流行技术能够有效地维持模型性能，但它们通常无法同时加速推理的预填充和解码阶段。W4A8是一种有前途的策略，可以加速这两个阶段，但通常会导致性能显著下降。为了解决这些问题，我们提出了QQQ，一种使用4位权重和8位激活的高质量四位量化方法。QQQ采用自适应平滑和基于Hessian的补偿，显著提高了量化模型的性能，而无需进行大量训练。此外，我们精心设计了W4A8 GEMM内核以增加推理速度。我们的专门通道W4A8 GEMM和分组W4A8 GEMM分别比FP16 GEMM实现了令人瞩目的速度提升3.67倍和3.29倍。我们广泛的实验表明，与现有最先进的LLM量化方法相比，QQQ实现了与之相当的性能，同时显著加速了推理，与FP16、W8A8和W4A16相比，分别实现了2.24倍、2.10倍和1.25倍的速度提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文旨在解决量化大型语言模型时，常用的W8A8和W4A16方法虽然能够维持模型性能，但无法同时加速推理的预填充和解码阶段的问题。同时，W4A8方法通常会导致性能下降，因此本文提出了一种名为QQQ的质量四位量化方法，使用4位权重和8位激活，并采用自适应平滑和基于Hessian的补偿，显著提高量化模型的性能而无需进行大量训练。此外，本文还精心设计了W4A8 GEMM内核，以增加推理速度。
关键思路

本文的关键思路是使用QQQ方法进行量化，并使用自适应平滑和基于Hessian的补偿来提高性能，同时设计了特殊的W4A8 GEMM内核以加速推理。
其它亮点

本文的亮点包括：使用QQQ方法在不需要大量训练的情况下显著提高量化模型的性能；设计了特殊的W4A8 GEMM内核以加速推理，其中的per-channel W4A8 GEMM和per-group W4A8 GEMM分别比FP16 GEMM快3.67倍和3.29倍；在与FP16、W8A8和W4A16进行比较时，QQQ方法的性能与现有最先进的LLM量化方法相当，同时加速推理，速度提高了2.24倍、2.10倍和1.25倍。
相关研究

在这个领域中，最近的相关研究包括：《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》、《Towards Accurate Post-Training Network Quantization via Bit-Split and Stitching》、《HAQ: Hardware-Aware Automated Quantization with Mixed Precision》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问