Fully Quantized Transformer for Machine Translation 用于机器翻译的全量化 Transformer
本文提出 FullyQT,一种 Transformer 全量化方法,有效证明使用全量化 Transformer 可避免翻译质量的损失,该模型在大多数任务上的 BLEU 得分更高,可获得良好的量化结果。
Extremely Low Bit Transformer Quantization for On-Device Neural Machine Translation 设备上神经机器翻译的超低比特Transformer量化
本文提出一种混合精度量化策略,能够实现以极低的位数(例如3位以下)表示Transformer 权重,其模型大小比基线模型小 11.8 倍,比 BLEU 小 0.5 倍,运行内存占用量减少 8.3 倍,占用率降低 3.5 倍(Galaxy N10 +),能够有效实现设备上的 NMT。
TernaryBERT: Distillation-aware Ultra-low Bit BERT TernaryBERT:可识别蒸馏的超低比特BERT
本文提出一种新的面向大规模预训练语言模型的超低比特量化方法 TernaryBERT,该方法可以对预训练模型进行任意低比特的量化压缩。在超低的 2-bit(权重三值化)情况下,可达到对原始模型 14.9 倍的压缩,同时保留业务98%以上的性能。
EMNLP2020 论文链接:https://www.aclweb.org/anthology/2020.findings-emnlp
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢