Hardware-Centric AutoML for Mixed-Precision Quantization
主页链接:https://hanlab.mit.edu/projects/haq/ 论文链接:https://arxiv.org/abs/2008.04878
本文提出了硬件感知自动量化(HAQ)框架,其利用强化学习自动确定量化策略,并在设计循环中获取了硬件加速器的反馈,性能优于PACT等方法,已收录于IJCV 2020!作者单位:麻省理工学院(韩松团队)
模型量化是一种用于压缩和加速深度神经网络(DNN)推理的广泛使用的技术。新兴的DNN硬件加速器开始支持混合精度(1-8位),以进一步提高计算效率,这为寻找每一层的最佳位宽提出了巨大挑战:它要求领域专家探索在精度之间进行权衡的广阔设计空间,延迟,能量和模型大小,这既耗时又次优。常规的量化算法忽略了不同的硬件架构,并以统一的方式量化所有层。在本文中,我们介绍了硬件感知自动量化(HAQ)框架,该框架利用强化学习自动确定量化策略,并在设计循环中获取了硬件加速器的反馈。我们不再依赖诸如FLOP和模型大小之类的代理信号,而是使用硬件模拟器来生成直接反馈信号(延迟和能量)给RL代理。与传统方法相比,我们的框架是完全自动化的,可以针对不同的神经网络体系结构和硬件体系结构专门化量化策略。与固定位宽(8位)量化相比,我们的框架有效地将延迟降低了1.4-1.95倍,将能耗降低了1.9倍,而精度损失可忽略不计。我们的框架表明,在不同的资源约束(即延迟,能耗和模型大小)下,不同硬件架构(即边缘和云架构)上的最佳策略完全不同。我们解释了不同量化策略的含义,这为神经网络体系结构设计和硬件体系结构设计提供了见识。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢