- 简介大规模语言模型(LLMs)所需的重要资源已经引起了人们对压缩和加速神经网络技术的极大兴趣。其中,后训练量化(PTQ)因在训练环境中具有显著的压缩效率和成本效益而成为人们关注的焦点。现有的LLMs PTQ方法将优化范围限制在预量化权重和后量化权重之间的缩放变换中。在本文中,我们提倡使用等效仿射变换来进行PTQ的直接优化(AffineQuant)。这种方法扩展了优化范围,从而显著减少了量化误差。此外,通过使用相应的逆矩阵,我们可以确保PTQ的预量化输出和后量化输出的等效性,从而保持其效率和泛化能力。为了确保在优化过程中变换的可逆性,我们进一步引入了逐步掩码优化方法。该方法最初专注于优化对角线元素,逐渐扩展到其他元素。这种方法符合Levy-Desplanques定理,理论上确保了变换的可逆性。结果,在不同的LLMs和不同的数据集上都有显著的性能提升。例如,在没有额外开销的情况下,我们在W4A4量化的LLaMA2-7B模型上获得了C4困惑度为15.76(比OmniQuant的18.02低2.26)。在零样本任务中,当使用4/4位量化对LLaMA-30B进行处理时,AffineQuant的平均准确率为58.61(比OmniQuant的56.63低1.98),从而为LLMs中的PTQ设立了新的技术基准。
-
- 图表
- 解决问题本篇论文旨在提出一种新的后训练量化(PTQ)方法,即AffineQuant,以解决大规模语言模型(LLMs)中的压缩和加速问题。与现有的PTQ方法不同,AffineQuant采用等效仿射变换来直接优化,从而扩展了优化范围,显著降低了量化误差。
- 关键思路AffineQuant方法采用等效仿射变换直接优化,扩展了优化范围,通过逐步掩码优化方法实现变换的可逆性,从而显著降低了量化误差。
- 其它亮点论文实验结果表明,AffineQuant方法在不同LLMs和数据集上都能显著提高性能。例如,在W4A4量化的LLaMA2-7B模型上,C4困惑度为15.76,比OmniQuant低2.26。在LLaMA-30B的4/4位量化下,AffineQuant的零样本任务平均精度为58.61,比OmniQuant低1.98,创下了PTQ在LLMs领域的新纪录。
- 在这个领域中,最近还有一些相关研究,如《OmniQuant: Scalable Post-Training Quantization》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流