论文链接:https://arxiv.org/abs/2209.13325

近年来,基于Transformer架构的语言模型越来越流行,但模型规模的变大也给落地部署上带来了许多挑战。本文将介绍NeurlPS 2022中北京航空航天大学刘祥龙教授团队、商汤研究院模型工具链团队、电子科技大学和北京大学基于Transformer架构的语言模型的低比特量化工作。该工作从这类模型的量化瓶颈-结构化异常值出发,探究了异常值的来源以及裁剪影响。针对这两方面的发现,作者提出了Outlier Suppression framework(异常值抑制框架),其中包括Gamma Migration和Token-Wise Clipping两个组件来抑制异常值从而得到更好的量化精度。该框架能够即插即用,适合多种模型(BERT,RoBERTa,BART等)、多个任务(分类任务、问答任务,摘要生成任务等)。相比于已有的SOTA方法,该框架首次将6比特BERT的离线量化精度提高到接近全精度模型水平。该方法凭借扎实的分析、高效的方法设计和显著的提升效果受到审稿人的一致认可,得到777的高评分。 

内容中包含的图片若涉及版权问题,请及时与我们联系删除