MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization

简介

本文提出了一种简单的基于优化的预处理技术，称为权重大小缩减（MagR），以提高训练后量化的性能。对于每个线性层，我们通过解决一个$\ell_\infty$正则化的优化问题来调整预训练的浮点权重。这个过程大大减小了权重的最大幅度并平滑了异常值，同时保留了层的输出。预处理后的权重更加集中于零，有助于后续的量化过程。为了实现MagR，我们采用了一种高效的近端梯度下降算法来解决$\ell_\infty$正则化问题。与现有的预处理方法不同，它们涉及线性变换和随后的后处理步骤，可能会在推理时引入重大开销，MagR作为非线性变换而存在，消除了任何额外的后处理的需要。这确保了MagR在推理过程中不会引入任何开销。我们的实验表明，MagR在Llama系列模型上实现了最先进的性能。例如，我们在LLaMA2-70B模型上实现了5.95的Wikitext2困惑度，而不会产生任何推理开销。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一种简单的优化预处理技术，称为权重幅度缩减（MagR），以改善训练后量化的性能。
关键思路

对于每个线性层，通过解决一个l∞-正则化优化问题来调整预训练的浮点权重。这个过程大大减小了权重的最大幅度并平滑了离群值，同时保持了层的输出。预处理的权重更加靠近零，有助于随后的量化过程。使用高效的近端梯度下降算法来解决l∞-正则化问题。
其它亮点

MagR作为一种非线性转换，消除了任何额外的后处理，确保在推理过程中不会引入任何开销。实验结果表明，MagR在Llama模型系列上实现了最先进的性能。论文提供了开源代码。
相关研究

最近在这个领域中，一些相关的研究包括：Q-BERT、Q8bert、HAQ、Q-BERT、QKeras、QPyTorch等。

MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization

提问交流

提问交流