FrameQuant: Flexible Low-Bit Quantization for Transformers

2024年03月10日
  • 简介
    Transformer模型是许多视觉和自然语言处理任务强大基础模型的支柱。但是,它们的计算和存储占用较大,因此为这样的模型提供服务通常需要高端硬件,代价昂贵。为了缓解这种困难,后训练量化试图修改预训练模型并将其量化为8位或更低,从而显着提高计算/内存/延迟效率。这样的模型已经成功地量化为4位,但存在一定的性能损失。在这项工作中,我们概述了一种简单的方案,将基于Transformer的模型量化为仅有两位(加一些开销),并仅有轻微的精度下降。我们公式化的关键在于从谐波分析中借鉴的一种概念,称为融合框架。我们的主要发现是,量化必须不是在原始权重空间中进行,而是在融合框架表示中进行。如果将量化解释为噪声的添加,我们对问题的转化允许调用大量已知的一致恢复和噪声鲁棒性保证。此外,如果需要,去噪滤波器可以以封闭形式得到。我们通过各种实验证明,对Transformer模型进行(几乎)两位量化可以带来可观的效率提高。
  • 图表
  • 解决问题
    本论文旨在解决Transformer模型的计算和存储成本高的问题,尝试通过后训练量化将预训练模型量化为8位或更低位,以提高计算/存储/延迟效率。
  • 关键思路
    本论文提出了一种将基于Transformer的模型量化为仅使用2位(加上一些开销)的简单方案,只会略微降低准确性。关键在于将量化转换到融合框架表示中,而不是在原始权重空间中进行量化,这样可以调用一系列已知的一致恢复和噪声鲁棒性保证。
  • 其它亮点
    论文通过实验验证了几乎使用2位量化的Transformer模型可以显著提高效率。实验设计了多个数据集,并开源了代码。此外,论文还展示了融合框架的概念可以应用于其他领域。
  • 相关研究
    相关研究包括:《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》、《Training Quantized Neural Networks: A Systematic Approach》、《Towards Accurate Post-Training Network Quantization via Bit-Split and Stitching》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论