论文标题:Pareto-Optimal Quantized ResNet Is Mostly 4-bit
论文链接:https://arxiv.org/abs/2105.03536
代码链接:https://github.com/google-research/google-research/tree/master/aqt
作者单位:加州大学河滨分校 & Google Research
表现SOTA!性能优于NICE、FAQ等,代码现已开源!
量化已成为压缩神经网络和降低计算成本的流行技术,但是大多数先前的工作集中于研究量化而不改变网络大小。神经网络的许多实际应用都有计算成本和内存预算,可以通过更改参数数量与模型质量进行权衡。在这项工作中,我们以ResNet为例,系统地研究了量化对推理计算成本-质量权衡曲线的影响。我们的结果表明,对于每个bfloat16 ResNet模型,都存在成本更低,准确性更高的量化模型。换句话说,bfloat16计算成本-质量折衷曲线受4位和8位曲线的帕累托控制,模型主要量化为4位,从而产生最佳的帕累托曲线。此外,我们在4位ResNet-50的ImageNet上通过量化感知训练在ImageNet上获得了最新的结果,获得了最高的评估准确度为77.09%。我们通过测量泛化差距来证明量化的正则化效果。我们使用的量化方法针对实用性进行了优化:它几乎不需要调整,并且在设计时考虑了硬件capabilities。我们的工作推动了对用于量化的最佳numeric formats的进一步研究,以及对支持这些格式的机器学习加速器的开发。

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢