OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

解决问题:本文旨在解决大型语言模型的存储和计算需求过高的问题,并提出了一种新的量化技术,OmniQuant。

关键思路:OmniQuant技术包括两个创新组件:可学习的权重剪裁(LWC)和可学习的等效变换(LET)。LWC通过优化剪裁阈值来调整权重的极端值。同时,LET通过可学习的等效变换将量化的挑战从激活转移到权重上。OmniQuant可以高效地优化权重-激活量化过程,并在不同的量化设置下实现良好的性能和计算效率。

其他亮点:本文的实验设计非常完备,使用了包括LLaMA-2在内的多个数据集进行验证,并开源了代码和模型。OmniQuant在不同的量化配置下均表现出优异的性能,同时在实际设备上也取得了显著的推理速度和内存减少效果。

相关研究:近期其他相关的研究包括:《Towards Accurate Post-Training Quantization with Knowledge Distillation》(Xiaojie Jin等,华中科技大学)、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》(Itay Hubara等,Technion - Israel Institute of Technology)、《Deep Learning with Low Precision by Half-Wave Gaussian Quantization》(Shuang Wu等,南京大学)等。

论文摘要:本文介绍了一种名为Omnidirectionally calibrated Quantization(OmniQuant)的技术,用于针对大型语言模型(LLMs)进行量化,以减少其内存占用和计算需求。该技术包括两个创新组件:可学习的权重剪裁(LWC)和可学习的等效转换(LET),它们通过优化各种量化参数来实现量化过程的高效优化。OmniQuant可以有效地优化仅权重和权重-激活量化的量化过程,可在单个A100-40G GPU上使用128个样本在1-16小时内处理大小为7-70B的LLaMA-2模型系列。大量实验验证了OmniQuant在不同的量化配置下的卓越性能,例如W4A4、W6A6、W4A16、W3A16和W2A16。此外,OmniQuant还在指令调整模型方面表现出有效性,并在实际设备上提供显着的推理速度和内存减少改进。本文提供了代码和模型,可在\url{https://github.com/OpenGVLab/OmniQuant}上获得。

内容中包含的图片若涉及版权问题,请及时与我们联系删除