LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices

2024年07月16日
  • 简介
    随着大型语言模型(LLMs)的商业化,重量激活量化已经出现,以压缩和加速LLMs,实现高吞吐量同时降低推理成本。然而,现有的针对LLMs的后训练量化(PTQ)技术仍然存在非常大的精度下降问题,特别是在大规模多任务语言理解方面。为了解决这个问题,我们提出了低秩量化(LRQ)-一种简单而有效的LLMs后训练权重量化方法,它通过利用低秩权重缩放矩阵重构中间Transformer块的输出,取代了传统的完整权重缩放矩阵,这些矩阵需要与它们关联的权重一样多的可学习比例尺。由于通过低秩结构的参数共享,LRQ只需要学习更少的参数,同时实现了权重的个别缩放,从而提高了量化LLMs的泛化能力。我们展示了LRQ在以下方案下比先前的LLM PTQ工作优越:(i)8位权重和每张量激活量化,(ii)4位权重和8位每令牌激活量化,以及(iii)低位权重量化方案。我们的代码可在\url{https://github.com/onliwad101/FlexRound_LRQ}上获得,以激励LLM研究人员和工程师。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决大型语言模型(LLMs)在量化权重和激活时存在的准确度下降问题,特别是在大规模多任务语言理解中的问题。
  • 关键思路
    本文提出了一种名为低秩量化(LRQ)的简单而有效的后训练权重量化方法,通过利用低秩权重缩放矩阵重建中间Transformer块的输出,从而取代传统的完整权重缩放矩阵,从而降低需要学习的参数数量。
  • 其它亮点
    实验结果表明,相比于现有的LLM后训练量化技术,LRQ在8位权重和每张量激活量化,4位权重和8位每个标记激活量化,以及低位权重量化方案下均表现出更好的性能。研究者还提供了开源代码。
  • 相关研究
    最近的相关研究包括《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》和《Training Quantized Neural Networks with a Full-Precision Auxiliary Module》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问