简介:我们建议在训练过程中向模型参数添加独立的伪量化噪声,以近似量化效果。这种方法DIFFQ是可微的关于未量化的参数,以及使用的位数。 给定一个表达所需平衡的超参数在量化模型大小和准确性之间,DIFFQ可以优化训练中单个权重或一组权重使用的每一个比特位。 我们通过实验验证了我们的方法优于最新的用于图像分类,语言建模、音频源分离和体系结构的几种量化技术。 例如,在Wikitext-103语言建模基准上,DIFFQ压缩了16层到8层的变换器模型,相当于4位精度,而仅损失了0.5点的困惑度。
代码:https://github.com/facebookresearch/diffq
论文下载:https://arxiv.org/pdf/2104.09987.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
举报类型(必选)
举报详情(选填)
0/200
沙发等你来抢
评论
沙发等你来抢