SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models

2024年05月23日
  • 简介
    本文介绍了一种基于重要性驱动的混合精度量化方案,即SliM-LLM,用于大型语言模型(LLMs)的后训练量化(PTQ)。该方案利用权重的重要性分布来确定最佳的位宽和量化器,以实现准确的LLMs量化,同时将位宽分区对齐到组,以实现紧凑的内存使用和快速的整数推理。具体来说,该方案主要依赖于两个新技术:(1)基于重要性的位分配利用重要性分布的聚类特征来分配每个组的位宽,增加了量化LLMs的准确性并保持了推理效率;(2)基于重要性加权的量化器校准通过考虑组内元素的重要性来优化量化器的参数,平衡了重要信息的维护和误差的最小化。综合实验表明,SliM-LLM在超低位时显著提高了LLMs的准确性,例如,2位LLaMA-7B在NVIDIA A800 GPU上比原始模型节省了5.5倍的内存,并且与最先进的无梯度PTQ方法相比,困惑度降低了48%。此外,通过梯度量化器扩展的SliM-LLM+进一步降低了35.1%的困惑度。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决低比特位下,现有的后训练量化方法在准确性和效率方面仍存在问题的挑战,提出一种基于显著性驱动的混合精度量化方案,即SliM-LLM,以提高LLMs在极低比特位下的准确性和效率。
  • 关键思路
    SliM-LLM方案利用权重的显著性分布来确定最佳比特位和量化器,同时将比特位分配对齐到组,以实现紧凑的内存使用和快速的整数推断。其主要依赖于两种新技术:基于显著性的比特位分配和基于显著性的量化器校准。
  • 其它亮点
    实验结果表明,SliM-LLM在超低比特位下显著提高了LLMs的准确性,例如2比特LLaMA-7B在NVIDIA A800 GPU上比原始模型节省了5.5倍的内存,并且比最先进的无梯度PTQ方法的困惑度降低了48%。此外,SliM-LLM+通过梯度量化器的扩展进一步降低了35.1%的困惑度。
  • 相关研究
    最近的相关研究包括:1.《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》;2.《HAQ: Hardware-Aware Automated Quantization with Mixed Precision》;3.《Differentiable Learning-to-Normalize via Switchable Normalization》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问