Extreme Compression of Large Language Models via Additive Quantization

Vage Egiazarian ,
Andrei Panferov ,
Denis Kuznedelev ,
Elias Frantar ,
Artem Babenko ,
Dan Alistarh
1350
热度
2024年01月11日
  • 简介
    准确的开放式大语言模型的出现引领了对这些模型进行量化技术的竞赛,以实现在终端用户设备上的执行。本文重新审视了“极端”LLM压缩问题——从多码本量化(MCQ)的经典方法的角度定义为针对极低的比特数,例如每个参数2到3比特。我们的工作基于加性量化,这是来自MCQ系列的经典算法,并将其适应于语言模型的量化。由此产生的算法推进了LLM压缩的最新技术,以在给定的压缩预算下,在精度方面优于所有最近提出的技术。例如,当将Llama 2模型压缩到每个参数2比特时,我们的算法在WikiText2上将7B模型量化为6.93困惑度(相对于最佳先前工作的1.29改进和FP16的1.81点),将13B模型量化为5.70困惑度(0.36改进)和70B模型量化为3.94困惑度(0.22改进)。我们发布了适用于语言模型的加性量化实现AQLM作为基线,以促进未来LLM量化研究。
  • 图表
  • 解决问题
    本论文试图解决极端低比特数下的大语言模型压缩问题,即如何在每个参数只有2-3个比特的情况下对大型语言模型进行压缩。
  • 关键思路
    本文提出一种基于Multi-Codebook Quantization (MCQ)的算法,名为Additive Quantization,用于对语言模型进行量化。该算法在保持压缩率的同时,提高了模型的准确性,相较于现有技术有了新的进展。
  • 其它亮点
    论文使用了WikiText2数据集进行实验,并将他们的实现AQLM作为基准开源。实验结果表明,本文提出的算法在各个压缩比例下都取得了优异的表现。值得进一步研究和探索。
  • 相关研究
    最近在这个领域中,有一些相关的研究。例如,Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference和Training Quantized Neural Networks with a Full-Precision Auxiliary Module等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论