QIGen: Generating Efficient Kernels for Quantized Inference on Large Language Models

解决问题:本论文旨在解决对大型语言模型进行量化生成推理时的效率问题,同时保证方法的准确性。这是一个当前研究领域的新问题。

关键思路:论文中提出了一种新的自动代码生成方法,该方法考虑了目标架构和性能模型,包括硬件特性和方法特定的准确性约束。该方法可以在 off-the-shelf CPUs 上支持量化生成推理,并且在 LLaMA 模型上的 CPU 推理结果表明,该方法可以在高性能和高准确性方面表现出色,相比于现有的最佳开源解决方案有竞争力。

其他亮点:本论文提供了一个初步的实现,可在 https://github.com/IST-DASLab/QIGen 上获得。该实验使用了 LLaMA 模型进行测试,实验设计较为详细,但未提及数据集和开源代码。这项工作值得进一步深入研究。

关于作者:本论文的主要作者是 Tommaso Pegolotti、Elias Frantar、Dan Alistarh 和 Markus Püschel。他们分别来自意大利的 Scuola Normale Superiore、奥地利的格拉茨技术大学和美国的麻省理工学院。他们之前的代表作包括 Tommaso Pegolotti 的 "A Fast and Accurate Algorithm for Computing the Discrete Fourier Transform of a Real Sequence"、Elias Frantar 的 "Optimizing Convolutional Neural Networks on Embedded Systems: A Survey"、Dan Alistarh 的 "The Convergence of Sparsified Gradient Methods" 和 Markus Püschel 的 "Parallelizing the Fast Fourier Transform: A Study of FFT Performance on Multicore CPUs"。

相关研究:近期其他相关的研究包括 "Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference"(作者:Itay Hubara、Daniel Soudry 和 Ron Banner,机构:Technion - Israel Institute of Technology)、"Quantized Neural Networks: Training Neural Networks with Low Precision Weights and Activations"(作者:Hagen Messerer 和 Horst Bischof,机构:Graz University of Technology)和 "Towards Efficient Quantized Neural Networks: A Survey"(作者:Yiwen Guo、Anbang Yao 和 Yurong Chen,机构:Peking University)。

论文摘要:我们介绍了一种新的自动代码生成方法,用于支持在现成CPU上对LLM(如LLaMA或OPT)进行量化生成推理。我们的方法考虑了目标架构和性能模型,包括硬件特性和方法特定的精度约束。对于基于CPU的LLaMA模型推理,我们的方法可以实现高性能和高准确度,并与最佳现有开源解决方案相比具有优势。我们在 https://github.com/IST-DASLab/QIGen 上提供了一个初步的实现。

内容中包含的图片若涉及版权问题,请及时与我们联系删除