【论文标题】I-BERT: Integer-only BERT Quantization 【作者团队】S Kim, A Gholami, Z Yao, M W. Mahoney, K Keutzer 【发表时间】2021/1/5 【机构】加州大学伯克利分校 【论文链接】https://arxiv.org/pdf/2101.01321.pdf 【推荐理由】本文来自UC Berkeley,为基于Transformer的模型提出了一种新型的纯整数量化方案,对整个推理过程进行量化。 近年来,像BERT和RoBERTa这样的基于Transformer的模型在许多自然语言处理任务中都取得了最新的成果。但是,它们的内存占用量,推理延迟和功耗对于许多边缘处理器来说都是令人望而却步的,同时将这些模型部署到具有资源限制的边缘应用程序和设备上也是极大的挑战。虽然量化可以是一种可行的解决方案,但之前关于基于模型的量化Transformer的工作在推理过程中使用浮点算法,从而限制了模型在许多边缘处理器上的部署。因此,本文提出一种新颖的纯整数BERT量化方案I-BERT。I-BERT的核心是非线性运算如GELU、Softmax和LayerNorm的近似方法,可用整数计算来进行近似。实验表明,在平均GLUE得分方面,该方法比浮点基线模型有所提高。

内容中包含的图片若涉及版权问题,请及时与我们联系删除