Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information

简介

大型语言模型（LLMs）已经显著推进了自然语言处理任务，例如机器翻译、文本生成和情感分析。然而，它们通常由数十亿个参数组成的庞大大小在存储、计算和部署方面带来了挑战，特别是在资源受限的环境中，如移动设备和边缘计算平台。有效的压缩和量化技术是解决这些问题的关键，可以在不显著损失性能的情况下减少内存占用和计算要求。传统方法将参数均匀地映射到压缩空间中，未能考虑参数的不均匀分布，导致显著的精度损失。在这项工作中，我们提出了 Athena，一种用于高效的基于块的后训练量化LLMs的新算法。 Athena利用二阶矩阵导数信息，使用损失景观的曲率信息指导量化过程。通过按列或行分组参数并迭代地优化量化过程，Athena更新模型参数和Hessian矩阵以实现显著的压缩同时保持高精度。这使得Athena成为在各种设置中部署LLMs的实用解决方案。
图表
解决问题

本论文旨在提出一种有效的方法，通过压缩和量化技术来解决大型语言模型（LLMs）在存储、计算和部署方面的挑战，以在资源受限的环境中实现高性能。
关键思路

该论文提出了一种名为Athena的算法，利用二阶矩阵导数信息来指导量化过程，通过分组参数并迭代优化量化过程，更新模型参数和Hessian矩阵以实现显著压缩同时保持高准确性。
其它亮点

该论文的亮点在于提出了一种新的算法Athena，用于高效的后训练量化LLMs。实验结果表明，Athena在多个数据集上都能够实现与基准模型相当的性能，同时具有更小的模型大小和更低的计算需求。此外，Athena的开源代码可供使用。
相关研究

最近的相关研究包括使用低秩矩阵分解进行模型压缩和量化的方法，以及使用剪枝技术减少模型大小的方法。相关的论文包括《Learning both Weights and Connections for Efficient Neural Networks》和《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》。

Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information

评论