MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization

2024年06月02日
  • 简介
    本文提出了一种简单的基于优化的预处理技术,称为权重大小缩减(MagR),以提高训练后量化的性能。对于每个线性层,我们通过解决一个$\ell_\infty$正则化的优化问题来调整预训练的浮点权重。这个过程大大减小了权重的最大幅度并平滑了异常值,同时保留了层的输出。预处理后的权重更加集中于零,有助于后续的量化过程。为了实现MagR,我们采用了一种高效的近端梯度下降算法来解决$\ell_\infty$正则化问题。与现有的预处理方法不同,它们涉及线性变换和随后的后处理步骤,可能会在推理时引入重大开销,MagR作为非线性变换而存在,消除了任何额外的后处理的需要。这确保了MagR在推理过程中不会引入任何开销。我们的实验表明,MagR在Llama系列模型上实现了最先进的性能。例如,我们在LLaMA2-70B模型上实现了5.95的Wikitext2困惑度,而不会产生任何推理开销。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提出一种简单的优化预处理技术,称为权重幅度缩减(MagR),以改善训练后量化的性能。
  • 关键思路
    对于每个线性层,通过解决一个l∞-正则化优化问题来调整预训练的浮点权重。这个过程大大减小了权重的最大幅度并平滑了离群值,同时保持了层的输出。预处理的权重更加靠近零,有助于随后的量化过程。使用高效的近端梯度下降算法来解决l∞-正则化问题。
  • 其它亮点
    MagR作为一种非线性转换,消除了任何额外的后处理,确保在推理过程中不会引入任何开销。实验结果表明,MagR在Llama模型系列上实现了最先进的性能。论文提供了开源代码。
  • 相关研究
    最近在这个领域中,一些相关的研究包括:Q-BERT、Q8bert、HAQ、Q-BERT、QKeras、QPyTorch等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问