BiSup: Bidirectional Quantization Error Suppression for Large Language Models

简介

随着大型语言模型（LLMs）的规模和上下文长度的增长，权重-激活量化已成为高效部署LLMs的关键技术。与仅权重量化相比，由于激活中存在异常值，权重-激活量化提出了更大的挑战。现有方法通过探索混合精度量化和异常值抑制取得了显著进展。然而，这些方法主要关注单个矩阵乘法的结果优化，忽略了LLMs中量化误差的双向传播。具体而言，错误通过层内在同一标记中垂直积累，并通过自注意机制在不同标记之间水平扩散。为了解决这个问题，我们介绍了BiSup，一种双向量化误差抑制方法。通过构建适当的可优化参数空间，BiSup利用少量数据进行量化感知参数高效微调，以抑制错误的垂直积累。此外，BiSup采用提示混合精度量化策略，保留系统提示的键值缓存的高精度，以减轻错误的水平扩散。对Llama和Qwen家族的广泛实验表明，BiSup可以提高性能，优于两种最先进的方法（在W3A3-g128配置下，Atom的平均WikiText2困惑度从13.26降至9.41，QuaRot从14.33降至7.85），进一步促进低位权重-激活量化的实际应用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型语言模型（LLMs）中权重-激活量化所面临的挑战，尤其是激活中存在的异常值问题，以提高LLMs的有效部署。
关键思路

该论文提出了一种双向量化误差抑制方法（BiSup），通过构建适当的可优化参数空间，利用少量数据进行量化感知参数高效微调，以抑制误差的垂直累积。此外，BiSup采用了prompt混合精度量化策略，以减轻误差的水平扩散。
其它亮点

该论文的实验使用了Llama和Qwen数据集，证明了BiSup方法可以改善LLMs的性能，并且比两种最先进的方法更为有效。该论文的代码已经开源。
相关研究

在该领域的相关研究中，已经有人尝试使用混合精度量化和异常值抑制等方法来解决LLMs中的量化问题。例如，有一篇名为“Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference”的论文。

BiSup: Bidirectional Quantization Error Suppression for Large Language Models

提问交流

提问交流