- 简介深度可分离卷积是高效深度神经网络中的基本组成部分,因为与传统卷积相比,它们减少了参数和操作的数量,同时保持了可比较的准确性。然而,它们的低数据重用机会使得部署它们变得非常困难。在这项工作中,我们对融合构成可分离卷积块的深度和点积核的替代方案进行了广泛探索。我们的方法旨在通过组合不同的数据布局来最小化耗时的内存传输。当针对商用超低功耗设备GreenWaves GAP8 SoC进行优化时,我们将端到端网络执行的延迟降低了高达11.40%。此外,我们的核心减少了L2和L1内存之间的激活数据移动高达52.97%。
- 图表
- 解决问题论文旨在探索融合深度可分离卷积块中的深度卷积和逐点卷积核的替代方法,以减少内存传输时间和数据移动,从而提高深度神经网络的执行效率。
- 关键思路通过结合不同的数据布局,最小化内存传输时间,实现深度可分离卷积块中深度卷积和逐点卷积核的融合,从而提高神经网络的执行效率。
- 其它亮点论文使用GreenWaves GAP8 SoC进行实验,结果表明,该方法可以将网络执行的端到端延迟降低高达11.40%,同时可以将L2和L1之间的激活数据移动降低高达52.97%。
- 最近的相关研究包括:MobileNetV2、ShuffleNetV2、EfficientNet等。
沙发等你来抢
去评论
评论
沙发等你来抢