Fusing Depthwise and Pointwise Convolutions for Efficient Inference on GPUs

简介

深度可分离卷积和逐点卷积的参数较少，执行的操作也较少，因此它们已经越来越多地用于各种紧凑型深度神经网络，包括卷积神经网络（CNN）和视觉变换器（ViT）。然而，它们的计算与内存访问比低于标准卷积，这使得它们的内存访问往往成为性能瓶颈。本文探讨了融合深度可分离卷积和逐点卷积以克服内存访问瓶颈的方法。重点是在GPU上融合这些运算符。GPU上的先前技术存在以下一个或多个问题：（1）融合卷积和逐元素或多个非卷积运算符，（2）未明确优化内存访问，（3）不支持深度可分离卷积。本文提出了融合卷积模块（FCMs），这是一组新的融合深度可分离卷积和逐点卷积的GPU内核。FCMs显著减少了逐点卷积和深度可分离卷积的内存访问，提高了执行时间和能量效率。为了评估融合的权衡和确定哪些卷积有益于融合以及最佳FCM参数，我们提出了FusePlanner。FusePlanner包括成本模型，可估算给定GPU特性时深度可分离、逐点和FCM内核的内存访问。我们在三个GPU上使用代表性CNN和ViT进行的实验表明，FCMs可以节省高达83％的内存访问，并与cuDNN相比实现了高达3.7倍的加速。使用我们的模块完整实现各种CNN的模型优于TVM，实现了高达1.8倍的加速，并节省了三分之二的能量。FCM和FusePlanner实现是开源的：https://github.com/fqararyah/Fusing_DW_and_PW_on_GPUs。
图表
解决问题

论文旨在解决深度学习中深度卷积和逐点卷积的内存访问瓶颈问题，提出了一种融合深度卷积和逐点卷积的GPU算法。
关键思路

论文提出了一种新的GPU算法，称为Fused Convolutional Modules (FCMs)，通过融合深度卷积和逐点卷积来减少内存访问，提高执行时间和能源效率。同时，论文提出了FusePlanner来评估融合的效果和最优参数。
其它亮点

论文使用了三种不同的GPU和多个代表性的CNN和ViT模型进行实验，结果显示FCMs可节省高达83％的内存访问，比cuDNN快3.7倍，并且在能源方面可节省三分之二。此外，论文还开源了FCM和FusePlanner的实现。
相关研究

近期的相关研究包括：《MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications》、《ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices》等。

Fusing Depthwise and Pointwise Convolutions for Efficient Inference on GPUs

评论