- 简介这篇文章讨论了在卷积神经网络(CNN)推断加速器上实现时,能效和内存占用的多种因素,包括权重量化策略(即数据类型和位宽)以及映射(即在加速器硬件单元上放置和调度DNN基本操作)。作者展示了启用丰富的混合量化方案可以打开以前隐藏的映射空间,从而更有效地利用硬件资源。相比于未经精心优化的CNN实现,利用量化权重和激活以及合适的映射的CNN可以显著改善准确性、能量和内存需求之间的权衡。为了找到、分析和利用这些映射,作者:(i)扩展了一个通用的最先进的映射工具(Timeloop)以支持混合量化,这是目前不可用的;(ii)提出了一种高效的多目标优化算法,以找到每个在加速器上执行的DNN层的最合适的位宽和映射;(iii)进行了详细的实验评估,以验证所提出的方法。在两个CNN(MobileNetV1和MobileNetV2)和两个加速器(Eyeriss和Simba)上,作者展示了对于给定的质量指标(如ImageNet上的准确性),节能高达37%,而没有任何准确性下降。
- 图表
- 解决问题本论文试图通过实现卷积神经网络(CNN)的量化和映射来提高CNN在CNN推理加速器上的能效和内存占用。
- 关键思路本论文提出了一种混合量化方案,并扩展了一个通用的状态-of-the-art映射工具(Timeloop)来支持混合量化,以找到适合每个DNN层的最合适的位宽和映射,并提出了一种有效的多目标优化算法。
- 其它亮点本论文在MobileNetV1和MobileNetV2两个CNN和Eyeriss和Simba两个加速器上进行了详细的实验评估,发现在不降低准确性的情况下,能源节省高达37%。
- 最近的相关研究包括:'Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference','HAQ: Hardware-Aware Automated Quantization with Mixed Precision'等。
沙发等你来抢
去评论
评论
沙发等你来抢