LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices

向作者提问

NEW

简介

随着大型语言模型（LLMs）的商业化，重量激活量化已经出现，以压缩和加速LLMs，实现高吞吐量同时降低推理成本。然而，现有的针对LLMs的后训练量化（PTQ）技术仍然存在非常大的精度下降问题，特别是在大规模多任务语言理解方面。为了解决这个问题，我们提出了低秩量化（LRQ）-一种简单而有效的LLMs后训练权重量化方法，它通过利用低秩权重缩放矩阵重构中间Transformer块的输出，取代了传统的完整权重缩放矩阵，这些矩阵需要与它们关联的权重一样多的可学习比例尺。由于通过低秩结构的参数共享，LRQ只需要学习更少的参数，同时实现了权重的个别缩放，从而提高了量化LLMs的泛化能力。我们展示了LRQ在以下方案下比先前的LLM PTQ工作优越：（i）8位权重和每张量激活量化，（ii）4位权重和8位每令牌激活量化，以及（iii）低位权重量化方案。我们的代码可在\url{https://github.com/onliwad101/FlexRound_LRQ}上获得，以激励LLM研究人员和工程师。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大型语言模型（LLMs）在量化权重和激活时存在的准确度下降问题，特别是在大规模多任务语言理解中的问题。
关键思路

本文提出了一种名为低秩量化（LRQ）的简单而有效的后训练权重量化方法，通过利用低秩权重缩放矩阵重建中间Transformer块的输出，从而取代传统的完整权重缩放矩阵，从而降低需要学习的参数数量。
其它亮点

实验结果表明，相比于现有的LLM后训练量化技术，LRQ在8位权重和每张量激活量化，4位权重和8位每个标记激活量化，以及低位权重量化方案下均表现出更好的性能。研究者还提供了开源代码。
相关研究

最近的相关研究包括《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》和《Training Quantized Neural Networks with a Full-Precision Auxiliary Module》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问