【作者团队】Huiyu Mo1, Wenping Zhu1, Wenjing Hu1, Guangbin Wang1, Qiang Li2, Ang Li1,Shouyi Yin1, Shaojun Wei1, Leibo Liu
【发表时间】2021.3 ISSCC2021
【机构】清华大学
【推荐理由】
为了在端侧设备上高效部署CNN网联模型,多数CNN处理器采用了模型量化技术来优化推断性能。这中间存在3个问题需要来解决:1) 量化后每个kernel中相同的权重导致重复的乘法运算,2) 经过Relu激活函数后会产生大量不必要的MAC运算,3)残差模块计算时会产生频繁片外存储器读写操作。
本文重点针对上述三个问题,提出了高能源效率的量化网络处理器,其主要架构如图1所示。
图1 顶层架构图
本文主要有以下3个贡献:
- 通过挖掘量化后CNN模型权值大量冗余的特征,提出一种能够显著减少冗余权值造成冗余乘法操作的优化方法,即基于有效权重的卷积计算(EWC),通过预先合并相同权重的运算,可以减少大于90%的乘法运算;
- 提出一种减少ReLU激活函数造成冗余乘加操作的预测方法,引入基于误差补偿的预测技术,将激活函数拆分成高阶bit和低阶bit,可以通过预测来大幅减少低阶bit的运算量;
- 针对广泛使用的残差结构,提出一种专用的流水结构,减少残差结构中大量的片外访存操作,题目中的Dual-mode主要体现了这一贡献。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢