Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators

简介

这篇文章讨论了在卷积神经网络（CNN）推断加速器上实现时，能效和内存占用的多种因素，包括权重量化策略（即数据类型和位宽）以及映射（即在加速器硬件单元上放置和调度DNN基本操作）。作者展示了启用丰富的混合量化方案可以打开以前隐藏的映射空间，从而更有效地利用硬件资源。相比于未经精心优化的CNN实现，利用量化权重和激活以及合适的映射的CNN可以显著改善准确性、能量和内存需求之间的权衡。为了找到、分析和利用这些映射，作者：（i）扩展了一个通用的最先进的映射工具（Timeloop）以支持混合量化，这是目前不可用的；（ii）提出了一种高效的多目标优化算法，以找到每个在加速器上执行的DNN层的最合适的位宽和映射；（iii）进行了详细的实验评估，以验证所提出的方法。在两个CNN（MobileNetV1和MobileNetV2）和两个加速器（Eyeriss和Simba）上，作者展示了对于给定的质量指标（如ImageNet上的准确性），节能高达37％，而没有任何准确性下降。
图表
解决问题

本论文试图通过实现卷积神经网络（CNN）的量化和映射来提高CNN在CNN推理加速器上的能效和内存占用。
关键思路

本论文提出了一种混合量化方案，并扩展了一个通用的状态-of-the-art映射工具（Timeloop）来支持混合量化，以找到适合每个DNN层的最合适的位宽和映射，并提出了一种有效的多目标优化算法。
其它亮点

本论文在MobileNetV1和MobileNetV2两个CNN和Eyeriss和Simba两个加速器上进行了详细的实验评估，发现在不降低准确性的情况下，能源节省高达37%。
相关研究

最近的相关研究包括：'Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference'，'HAQ: Hardware-Aware Automated Quantization with Mixed Precision'等。

Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators

评论