- 简介随着大型语言模型(LLMs)的规模和上下文长度的增长,权重-激活量化已成为高效部署LLMs的关键技术。与仅权重量化相比,由于激活中存在异常值,权重-激活量化提出了更大的挑战。现有方法通过探索混合精度量化和异常值抑制取得了显著进展。然而,这些方法主要关注单个矩阵乘法的结果优化,忽略了LLMs中量化误差的双向传播。具体而言,错误通过层内在同一标记中垂直积累,并通过自注意机制在不同标记之间水平扩散。为了解决这个问题,我们介绍了BiSup,一种双向量化误差抑制方法。通过构建适当的可优化参数空间,BiSup利用少量数据进行量化感知参数高效微调,以抑制错误的垂直积累。此外,BiSup采用提示混合精度量化策略,保留系统提示的键值缓存的高精度,以减轻错误的水平扩散。对Llama和Qwen家族的广泛实验表明,BiSup可以提高性能,优于两种最先进的方法(在W3A3-g128配置下,Atom的平均WikiText2困惑度从13.26降至9.41,QuaRot从14.33降至7.85),进一步促进低位权重-激活量化的实际应用。
-
- 图表
- 解决问题本论文旨在解决大型语言模型(LLMs)中权重-激活量化所面临的挑战,尤其是激活中存在的异常值问题,以提高LLMs的有效部署。
- 关键思路该论文提出了一种双向量化误差抑制方法(BiSup),通过构建适当的可优化参数空间,利用少量数据进行量化感知参数高效微调,以抑制误差的垂直累积。此外,BiSup采用了prompt混合精度量化策略,以减轻误差的水平扩散。
- 其它亮点该论文的实验使用了Llama和Qwen数据集,证明了BiSup方法可以改善LLMs的性能,并且比两种最先进的方法更为有效。该论文的代码已经开源。
- 在该领域的相关研究中,已经有人尝试使用混合精度量化和异常值抑制等方法来解决LLMs中的量化问题。例如,有一篇名为“Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference”的论文。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流