GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration

2025年04月03日
  • 简介
    我们提出了GPTQv2,这是一种全新的无需微调的量化方法,用于压缩大规模Transformer架构。与之前逐层独立校准的GPTQ方法不同,我们始终将量化层的输出与全精度模型的确切输出进行匹配,从而形成一种我们称之为“非对称校准”的方案。这种方案能够有效减少之前层中累积的量化误差。我们通过最优大脑压缩理论分析了这一问题,并推导出一个闭式解。新的解决方案不仅显式地最小化了量化误差,还减少了累积的非对称误差。此外,我们采用了多种技术来并行化计算过程,包括通道并行化、神经元分解以及用于矩阵融合的Cholesky重写方法。因此,GPTQv2易于实现,相较于GPTQ仅需额外增加20行代码,但在低比特量化下性能显著提升。值得注意的是,在单个GPU上,我们成功量化了一个包含405亿参数的语言Transformer模型,以及排名第一、预训练时能达到90% ImageNet准确率的视觉Transformer模型EVA-02。代码已开源,可在github.com/Intelligent-Computing-Lab-Yale/GPTQv2获取。
  • 图表
  • 解决问题
    该论文试图解决如何在不进行微调的情况下,高效地对大规模Transformer模型进行低比特量化的问题。这是一个重要问题,因为量化可以显著降低模型的存储和计算需求,但通常会导致性能下降。虽然这不是一个全新的问题,但GPTQv2专注于减少量化误差和累积不对称误差,从而提高量化模型的精度。
  • 关键思路
    GPTQv2的关键思路是引入了一种称为‘不对称校准’的方法,通过确保每层量化后的输出尽可能匹配原始全精度模型的输出,来减少量化误差的累积。与之前的GPTQ方法不同,它不再独立校准每一层,而是综合考虑了整个网络的误差传播。此外,作者基于最优脑压缩理论推导出了一种闭式解,明确最小化了量化误差和累积不对称误差。这种新方法在低比特量化场景下表现尤为出色。
  • 其它亮点
    1. GPTQv2在单个GPU上成功量化了一个405B参数的语言模型以及EVA-02(一种顶级视觉Transformer),并且保持了高精度(例如90%的ImageNet预训练准确率)。 2. 作者提出了多种加速技术,如通道并行化、神经元分解和Cholesky矩阵融合方法,使得算法易于实现且高效。 3. 实现代码已开源至GitHub(github.com/Intelligent-Computing-Lab-Yale/GPTQv2),方便社区复现和进一步研究。 4. 论文展示了GPTQv2相较于GPTQ仅需额外20行代码,却显著提升了低比特量化的性能。
  • 相关研究
    最近的相关研究包括: 1. GPTQ: A Method for Quantizing Large-Scale Language Models (2023),这是GPTQv2的直接前作,首次提出无微调量化方法。 2. AWQ: Activation-aware Weight Quantization for Large Language Models (2023),关注激活感知权重量化以优化LLM性能。 3. Telescopic Gradient Quantization for Communication-Efficient Federated Learning (2022),探讨了梯度量化在联邦学习中的应用。 4. SparseGPT: Massive Language Models Pruning via Self-Distillation (2023),研究了自蒸馏技术在大语言模型剪枝中的应用。 这些工作共同推动了大模型压缩和优化领域的快速发展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论