CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs

2024年05月27日
  • 简介
    最近,对于大型语言模型(LLMs)的参数量化引起了越来越多的关注,旨在减少内存成本和提高计算效率。早期的方法被广泛采用,但是现有的方法在低位(如2到3位)的情况下表现不佳。本文提出了一种新颖有效的列级自适应权重量化(CLAQ)框架,引入了三种不同的自适应策略来量化LLM。首先,提出了一种基于K-Means聚类的算法,允许动态生成每个参数矩阵列的量化中心。其次,我们设计了一种基于异常值的自适应精度搜索策略,可以动态地为不同的列分配不同的位宽。最后,开发了一种动态异常值保留方案,以保留一些参数的原始浮点精度,以换取提高模型性能。在各种主流开源LLMs上进行的实验,包括LLaMA-1、LLaMA-2和Yi,证明了我们的方法在不同的位设置下取得了最先进的结果,特别是在极低位的情况下。代码可在https://github.com/fayuge/CLAQ上获得。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)中参数量化在低位(如2到3位)情况下性能较差的问题,提高计算效率和降低内存成本。
  • 关键思路
    本论文提出了一种新的、有效的列级自适应权重量化(CLAQ)框架,通过引入三种不同类型的自适应策略来实现LLM量化,包括基于K-Means聚类的动态量化质心生成、基于异常值的自适应精度搜索策略和动态异常值保留方案。
  • 其它亮点
    论文在多个主流开源LLMs上进行了实验,包括LLaMA-1、LLaMA-2和Yi,证明了本方法在不同位数设置下实现了最先进的结果,尤其是在极低位情况下。此外,论文提供了代码开源。
  • 相关研究
    最近的相关研究包括《HAQ: Hardware-Aware Automated Quantization with Mixed Precision》、《Learning Efficient Low-Bit Deep Neural Networks with Regularized Information Theory》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论