Fusing Depthwise and Pointwise Convolutions for Efficient Inference on GPUs

简介

深度可分离卷积和逐点卷积的参数比标准卷积少，执行的操作也少。因此，它们在各种紧凑的深度神经网络中越来越常用，包括卷积神经网络（CNN）和视觉变换器（ViTs）。然而，它们的计算与内存访问比低于标准卷积，使得它们的内存访问通常成为性能瓶颈。本文探讨了融合深度可分离卷积和逐点卷积以克服内存访问瓶颈。重点是在GPU上融合这些运算符。GPU融合的先前技术存在以下一个或多个问题：（1）融合卷积和元素级或多个非卷积运算符，（2）没有明确优化内存访问，（3）不支持深度可分离卷积。本文提出了一组新颖的融合深度可分离卷积和逐点卷积GPU内核，称为融合卷积模块（FCMs）。FCMs显著减少了逐点卷积和深度可分离卷积的内存访问，提高了执行时间和能量效率。为了评估融合所涉及的权衡，并确定哪些卷积有益于融合以及最佳的FCM参数，我们提出了FusePlanner。FusePlanner包括成本模型，以估计给定GPU特征的深度可分离卷积、逐点卷积和FCM内核的内存访问。我们在三个GPU上使用代表性的CNN和ViTs进行的实验表明，FCMs节省了高达83%的内存访问，并实现了高达3.7倍的速度提升，与cuDNN相比。使用我们的模块完整的实现各种CNN的模型，优于TVMs，实现了高达1.8倍的加速和节省了三分之二的能量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决深度学习中深度卷积和逐点卷积的内存访问瓶颈问题，提出了一种新的GPU内核融合方法
关键思路

论文提出了一种新的GPU内核融合方法——Fused Convolutional Modules (FCMs)，通过融合深度卷积和逐点卷积来减少内存访问次数，提高执行效率和能源利用率
其它亮点

论文提出的FusePlanner可以估计FCMs在GPU上的内存访问次数，以确定哪些卷积有利于融合以及最佳FCM参数。实验结果表明，FCMs可以节省多达83%的内存访问次数，比cuDNN快3.7倍，比TVMs快1.8倍，且能节省三分之二的能源。
相关研究

与本文相关的研究包括深度学习中的其他GPU内核融合方法，以及深度卷积和逐点卷积在各种紧凑型DNNs中的应用。

Fusing Depthwise and Pointwise Convolutions for Efficient Inference on GPUs

提问交流

提问交流