SDQ: Sparse Decomposed Quantization for LLM Inference

简介

最近，大型语言模型（LLMs）在特定任务负载以及给定提示的一般任务中表现出惊人的性能。然而，为了实现前所未有的性能，最近的LLMs使用了数十亿到数万亿的参数，这些参数由于其极大的计算和内存需求，阻碍了这些模型的广泛应用。为了解决这个问题，各种模型压缩方法正在积极研究中。在这项工作中，我们提出了SDQ（稀疏分解量化），利用结构化稀疏性和量化来实现高计算和内存效率。从我们的评估中，我们观察到SDQ可以实现4倍的有效计算吞吐量，而质量下降不到1%。
图表
解决问题

提高大型语言模型的计算和存储效率
关键思路

使用SDQ算法，结合稀疏性、分解和量化技术，提高大型语言模型的计算和存储效率
其它亮点

SDQ算法可以在不降低质量的情况下，实现4倍的计算效率提升；实验结果表明SDQ算法在多个数据集上都取得了较好的性能；论文提供了开源代码
相关研究

近期的相关研究包括：1. Efficient Transformers: A Survey, 2. TinyBERT: Distilling BERT for Natural Language Understanding