Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators

2024年04月08日
  • 简介
    这篇文章讨论了在卷积神经网络(CNN)推断加速器上实现时,能效和内存占用的多种因素,包括权重量化策略(即数据类型和位宽)以及映射(即在加速器硬件单元上放置和调度DNN基本操作)。作者展示了启用丰富的混合量化方案可以打开以前隐藏的映射空间,从而更有效地利用硬件资源。相比于未经精心优化的CNN实现,利用量化权重和激活以及合适的映射的CNN可以显著改善准确性、能量和内存需求之间的权衡。为了找到、分析和利用这些映射,作者:(i)扩展了一个通用的最先进的映射工具(Timeloop)以支持混合量化,这是目前不可用的;(ii)提出了一种高效的多目标优化算法,以找到每个在加速器上执行的DNN层的最合适的位宽和映射;(iii)进行了详细的实验评估,以验证所提出的方法。在两个CNN(MobileNetV1和MobileNetV2)和两个加速器(Eyeriss和Simba)上,作者展示了对于给定的质量指标(如ImageNet上的准确性),节能高达37%,而没有任何准确性下降。
  • 图表
  • 解决问题
    本论文试图通过实现卷积神经网络(CNN)的量化和映射来提高CNN在CNN推理加速器上的能效和内存占用。
  • 关键思路
    本论文提出了一种混合量化方案,并扩展了一个通用的状态-of-the-art映射工具(Timeloop)来支持混合量化,以找到适合每个DNN层的最合适的位宽和映射,并提出了一种有效的多目标优化算法。
  • 其它亮点
    本论文在MobileNetV1和MobileNetV2两个CNN和Eyeriss和Simba两个加速器上进行了详细的实验评估,发现在不降低准确性的情况下,能源节省高达37%。
  • 相关研究
    最近的相关研究包括:'Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference','HAQ: Hardware-Aware Automated Quantization with Mixed Precision'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论