论文链接:https://arxiv.org/abs/2210.04020
导读
近年来,Transformer模型在各个领域都取得了巨大的进展。在计算机视觉领域,视觉Transformer(ViTs)也成为卷积神经网络(ConvNets)的有力替代品,但它们还无法取代ConvNet,因为两者都有各自的优点。例如,ViT善于利用注意力机制提取全局特征,而ConvNets由于其强烈的归纳偏差,在建模局部关系时更有效。
一个自然的想法是结合ConvNets和ViT的优势来设计新的结构。本文提出了一种新的基本神经网络算子,称为位置感知循环卷积(ParC)及其加速版本Fast-ParC。ParC算子通过使用全局核和循环卷积来捕获全局特征,同时通过位置嵌入来保持位置敏感性。
Fast-ParC使用快速傅里叶变换将ParC的O(n2)时间复杂度进一步降低为O(n log n)。这种加速使得在具有大型特征映射的模型的早期阶段使用全局卷积成为可能,但仍保持与使用3x3或7x7内核相当的总体计算成本。所提出的操作可以以即插即用的方式使用:
1)将ViT转换为纯ConvNet架构,以获得更广泛的硬件支持和更高的推理速度;
2)在ConvNets的深层替换传统的卷积,通过扩大有效感受野来提高准确性。实验结果表明,ParC操作可以有效地扩大传统ConvNets的感受野,并且在所有三种流行的视觉任务(图像分类、目标检测和语义分割)中,采用所提出的操作都有利于ViT和ConvNet模型。
贡献
视觉Transformer近年来一直呈上升趋势。2017年首次提出变压器,以解决NLP任务。2020年,Dosovitskiy等人将原始Transformer直接应用于图像分类任务,发现在对大型数据集(如ImageNet-21K或JFM-300M)进行预处理时,它比卷积网络(ConvNets)取得了更好的结果。ViT及其变体随后被广泛用于其他下游视觉任务,如物体检测、语义分割和多模态任务,如人-物体交互(HOI)、文本-图像(T2I)合成等。尽管Transformer取得了巨大成功,但它们仍然不能完全取代ConvNets。正如在以前的工作中总结的那样,与ViTS相比,ConvNets具有更好的硬件支持,更易于训练。此外,ConvNets在移动和其他边缘计算场景的轻量级模型领域仍然占据主导地位。
Transformer和ConvNets都有其独特的特点。对于Transformer,广泛认可的多头注意力机制旨在捕获Token之间的远程关系,这为Transformer提供了强大的全局建模能力。虽然擅长这种全局表示能力,但它也需要更高的计算资源。自注意力机制的时间复杂度是Token数量的二次方,因此处理高分辨率特征图的速度较慢。与之不同的是,卷积运算擅长于提取局部信息。它在一个小的滑动窗口(通常为3x3)内捕获局部信息,并将同一卷积核用于不同的输入和不同的空间位置。它可以解释为一种有效的隐式权重分配方案,使得卷积的所需参数仅随输入线性增长。
此外,ConvNets已经被很好地研究并使用了更长的时间,因此它们还具有其他一些独特的优势。例如,ConvNets的剪枝和量化等压缩算法已经成熟。至于硬件实现,无论是在CPU、GPU等通用平台上,还是在FPGA、ASIC等专用加速器上,都有许多现有的加速方案(如Winograd、FFT、im2col)。总之,卷积运算的实现成本较低,但它不能像自我注意那样捕获全局关系。显然,变压器的表示能力和ConvNets的效率之间存在互补关系,两者对于实际应用都是不可或缺的。
最近有一些工作结合了Transformer和ConvNets的优点。PVT、Swin和CoAtNet试图重新引入卷积的感应偏差(例如其滑动窗口策略),以帮助Transformer模型更好地学习。像LeViT、MobileViT、EfficientFormer这样专注于设计高效的混合架构。这些工作大多将这两种网络结合在一起,但它们未能解决关键问题:新引入的注意力算子的额外计算和工程复杂性。很自然地会问:如果有可能设计一个不同于自注意力和传统卷积的新算子,它同时具有双方的优点吗?
本文结合Transformer和ConvNets的优点,构造了一种新的即插即用运算符ParC。ParC具有全局接受域,因为使用全局核(Kh=H或Kw=W)并采用循环卷积方案。然后,在卷积之前采用一个明确的可学习位置嵌入,以保持模型位置敏感。
如图1所示,不同的ConvNet模型通过简单地应用提出的ParC算子,改善了它们对全局的有效感受野。由于ParC使用纯卷积运算,因此可以高效地部署在不同的平台上。最后,将二维卷积分解为两个一维卷积,以克服FLOP/参数的增加。基于上述设计实现了提取全局特征的目标,同时在空间和时间复杂度方面仍保持低成本。
通过实验验证了新算子在各种任务和模型中的有效性。总之,本文的贡献可以概括为以下3点:
- 结合ViT和ConvNets的优点,提出了一种有效的新算子ParC。实验证明了ParC的优势,将其应用于广泛的模型,包括MobileViT、ResNet50、MobileNetV2和ConvNext。我们还对这些模型进行了多任务评估,包括分类、检测和分割。
- 为了克服输入特征分辨率较大时,ParC的复杂性变得难以克服的问题,提出了快速ParC。Fast Parc理论上等同于Parc,例如,当给定相同的输入时,它们的输出是相同的。然而,当给定较大的分辨率(例如112×122)时,它比ParC效率高得多。Fast ParC扩展了ParC的使用场景,使其成为一个更广泛的应用操作符。
- 分析了新算子的内部机理。通过可视化显示了ParC和标准卷积之间的几个不同之处。实验表明,标准ConvNet的有效感受野(ERF)非常有限,而基于ParC的网络确实具有全局ERF。Grad CAM还表明,基于ParC的网络在关注图像的重要区域方面比普通ConvNets更全面。作者还对ParC和标准卷积之间的差异进行了详细分析。
方法
3.1、ParC Operation
1、Vanilla Depth-wise Convolution
为了描述在B*C*H*W形状的4D输入张量上以水平维进行的一维深度卷积 (称为 Conv1dH), 可以首先关注一个特定的通道。将输出表示y , 输入为x, 卷积权重为w。然后, 带零填充的 Pytorch 型卷积 (即 F.conv1d)可以表示为:
其中, kh/2用于抵消输入两侧kh/2标量的额外填充。等式 1 中, yi是其局部相邻输入, 邻域的大小由卷积核大小kh控制。因此, 单个小卷积核卷积层不可能收集远距离信息。为了解决标准卷积的这个缺点, 作者提出了具有全局感受野的 ParC。
2、ParC: 位置感知循环卷积
定义w作为卷积核权重, pe 作为位置嵌入。对应图2,ParC可以描述为:
w是固定大小的可学习kernel (由超参数指定), 而wH是调整后的可学习kernel, 其大小与相应的输入特征映射大小匹配。pe表示位置嵌入。这里采用插值函数f(例如 bi-linear, bi-cubic ) 来适应kernel的大小和位置嵌入。 表示模运算。与普通卷积相比, ParC算子有 4 个主要区别:
- Global kernel
- Circular Convolution
- Positional Embedding
- 1-D Decomposition
为了有效地提取全局特征,这些设计都是必不可少的,这在后面的消融实验中得到了证明。
Global kernel and Circular Convolution
为了在整个输入映射中提取全局关系,ParC采用了Global kernel,其大小与相应特征映射的大小相同,表示为Kh=H或Kw=W。在某些架构中,每个阶段都会缩小一半。例如,在ResNet50或ConvNeXt中,4阶段的特征分辨率分别为[56、28、14、7]。但仅仅增大普通卷积核本身的大小并不能有效地提取全局关系。由于使用了零填充,即使kernel大小增加到分辨率,kernel权重也会与零填充对齐,除了绝对位置之外,零填充无法提供有用的信息。当kernel与图片边缘对齐时,这种影响最为严重——对于2D卷积,3/4的输入实际上是零。因此,还建议使用Circular Convolution。在进行Circular Convolution时,在窗口滑动期间,kernel权重总是与有效像素对齐,如图2所示。
Positional Embedding
正如在之前的工作中得出的结论,标准卷积可以在使用零填充时对位置信息进行编码。然而,Circular Convolution会周期性地重用输入图片,这会丢失部分位置信息。为了克服这个问题,引入了可学习的位置编码,它被插入到Circular Convolution之前。在接下来的实验中证明了这对模型的性能非常重要,特别是对于对空间信息敏感的下游任务。
1D Decomposition
最后,为了确保模型尺寸和计算的可接受成本。将2D卷积和位置编码分为H(水平)和V(垂直)方向,这样可以将参数和FLOP的数量从O(H×W)减少到O(H+W),当分辨率较大时,这是一个相当大的压缩。
Implementation of Circular Convolution
从概念上讲,Circular Convolution需要与普通卷积分开实现,因为在计算卷积像素的索引时有额外的模op。实际上,在调用普通的1D卷积例程之前,可以使用“concat”函数将输入特征映射与其副本填充,从而轻松实现该功能(参见算法1)
当考虑垂直尺寸W和通道尺寸C时,公式2可以扩展为
这是通道C的单层深度ParC-H的完整表示,输入分辨率为H×W。在ResNet50 ParC中,还将每个通道的ParC扩展到其稠密对应项,并重新引入通道相互作用,可以表示为:
3.2、Fast-ParC: 用FFT等价形式加速ParC
如图3所示,当特征分辨率较小时(如7×7),应用ParC可以有效地提取全局特征并降低计算复杂度。但随着输入分辨率的提高,ParC的复杂度迅速超过7×7卷积。为了克服这个问题提出了一个名为Fast ParC的ParC加速版本。当特征分辨率较大时(例如,56×56),Fast ParC比ParC效率更高。事实上,Fast ParC虽然具有全局提取能力,但在较宽的分辨率区间内,其效率甚至比7×7卷积更高。
借助于快速傅里叶变换(FFT)设计了Fast ParC。众所周知,FFT可以简化线性卷积运算。但根据卷积定理,对于离散信号,傅里叶域的点积更接近于空间域的Circular Convolution。这正是ParC和普通卷积的区别之一。
此外, ParC 的另外两个特征, global kernel 和right padding, 也很好地符合傅里叶域卷积的默认模式。这一有趣的事实能够为 ParC 开发一个非常整洁、漂亮的频域实现。将x(n)、w(n)和y(n)定义为时域中的输入、权重和输出序列,x(k)、w(k)和y(k)定义为傅里叶域中的序列, 可以得到以下等价关系:
公式5显示了两个严格等效的数学表达式。空间域中的ParC需要卷积式运算,而在傅里叶域中,它变成了简单的逐元素乘法。基于此提出了一种傅里叶域形式的ParC运算,称为Fast ParC。理论上可以证明,Fast ParC在空间域上严格等价于ParC。这两种实现之间的误差可以忽略不计。可以根据实际使用的平台,分别选择适当的ParC实现进行训练和推理。这为ParC提供了强大的灵活性。Fast ParC的优势显而易见:
首先, 长度为 的一维傅里叶变换的乘法复杂度仅为O(NlogN), 而空间域的一维卷积需要O(N2)。
与表1相对应,当N较大时,空间卷积的复杂度明显超过了基于FFT的卷积。ParC使用Global kernel和Circular Convolution,这与傅里叶卷积的默认空间格式相匹配。考虑到下游任务,如多实例检测或分割,通常需要更高的分辨率。例如,对于COCO,常用的测试分辨率为1280×800,对于ADE20k为2048×512。当N较大时,Fast ParC可以节省模型的FLOP并实现更好的加速。Fast ParC还允许在计算预算可接受的情况下,将ParC用于较浅的阶段。这对于在新架构中实现ParC是必要的。
另一个优势实际上来自对FFT的软件/硬件支持。由于FFT是一种经典的信号处理算法,许多平台都对其加速提供了现成的支持。当ParC应用于FPGA等定制平台时,许多资源(如片上DSP、预先设计的IP核)可以得到有效利用。
此外,通用计算平台也有现成的工具包(例如CPU:torch.fft、numpy.fft;GPU:cuFFT)。Fast ParC的灵活性使之能够根据不同的标准(例如,最大吞吐量、最小内存占用)以及不同计算平台中算法的实际偏好选择更好的实现。
幸运的是,FastParC完全等同于ParC,并且替换不需要任何额外的转换。可以根据平台的要求选择ParC的具体实现形式。由于ParC和Fast ParC拥有最高级别的灵活性,用于训练和推理的实现也可以解耦。
3.3、在ViT和ConvNets上应用ParC
为了验证ParC作为即插即用元运算符的有效性,基于第3.1节中提出的操作构建了一系列基于ParC的模型。这里,基线模型包括ViT和ConvNets。具体而言,对于ViT,MobileViT被选为基线,因为它在最近提出的轻型混合结构中实现了最佳参数/精度权衡。
采用ResNet50、MobileNetv2、MobileViT和ConvNext作为ConvNet基线。ResNet50是实际应用中使用最广泛的模型。MobileNetV2是移动设备中最流行的轻量化模型。ConvNext是第一个ConvNet,它保留了纯ConvNets架构,同时集成了ViT的一些特性。在这里采用的4种模型都具有代表性。
1、ParC-ViTs
ParC-MetaFormer Block
如图4和图5所示,ConvNets和ViTs的外层结构差异较大。vit通常采用 meta-former block作为基本架构。为了在ViTs上应用ParC运算符,作者设计了ParC-MetaFormer block,并使用它来替换ViTs中的transformer blocks。
Adopting MetaFormer like structure
MetaFormer块是ViT最常用的块结构,它通常由2个组件组成:token mixer和 channel mixer。这两个组件都使用残差结构。采用ParC作为token mixer来构建ParC MetaFormer块。这样做是因为ParC可以从全局空间中提取全局特征并交互像素之间的信息,这满足了token mixer模块的要求。与复杂度为二次的自注意力不同,ParC在计算上效率更高。用ParC替换此部分可以显著降低计算成本。在ParC MetaFormer区块,采用了ParC-H和ParC-V的串行结构。考虑到对称性,一半通道首先通过ParC-H,其他通道首先通过ParC-V(如图4所示)。
Adding channel wise attention in channel mixer part
尽管ParC保持了全局感受野和位置嵌入,但ViT对ConvNets的另一个好处是数据驱动。在ViT中,自注意力模块可以根据输入调整权重。这使得ViT数据驱动模型能够专注于重要特性并抑制不必要的特性,从而带来更好的性能。
以前的文献已经解释了保持模型数据驱动的重要性。通过用提出的全局循环卷积代替自注意力,得到了一个能够提取全局特征的纯卷积网络。但被替换的模型不再是数据驱动的。为了进行补偿,将通道注意力模块插入 channel mixer部分,如图4所示。
MobieViT-ParC Network
目前,现有的混合结构基本上可以分为3种主要结构,包括串行结构、并行结构和分叉结构。在所有三种结构中,第三种结构目前性能最佳。MobileViT也采用了分叉结构。受此启发,基于MobileViT,还构建了具有分叉结构的模型。MobileViT由两种主要类型的模块组成。浅层由MobileNetV2区块组成,具有局部感受野。深层阶段由ViT块组成,享有全球接受场。保留所有MobileNetV2块,并用相应的ParC块替换所有ViT块。此替换将模型从混合结构转换为纯ConvNet,同时保留其全局特征提取能力。
2、ParC-ConvNets
对于ParC ConvNets,专注于为ConvNet提供全局感受野。用ParC操作替换标准卷积(如图5(a)所示),作者构建了不同的基于ParC的块。以往的混合结构工作得出了类似的结论:早期使用局部模块,深层使用全局提取模块的模型性能最佳。由于ParC拥有一个全局感受野,按照这个规则将基于ParC的块插入ConvNets(如图5(e)所示)。
ParC BottleNeck and ResNet50-ParC Network
ResNet是最经典的ConvNet之一。只需将原始ResNet50 BottleNeck的3×3卷积替换为ParC运算符,即可获得ParC BottleNeck(见图5(b))。由于ParC-H和ParC-V的特性可能有显著差异,因此它们之间没有引入通道相互作用。这类似于采用group=2的组卷积。ResNet的主要部分可以分为4个阶段,每个阶段由几个重复的瓶颈块组成。
具体来说,ResNet50在4个阶段中分别有[3、4、6、3]个块。通过将ResNet50倒数第二阶段的最后1/2和最后阶段的最后1/3替换为ParC BottleNeck,获得了ResNet50 ParC。
ParC-MobileNetV2 Block and MobileNetV2-ParC Network
MobileNetV2是轻量级模型的典型代表。通过将Inverted Bottleneck中的3×3深度旋转替换为depthwise ParC,得到了ParC-MobileNetV2块(见图5(c))。MobileNetV2比Resnet50要更细更深,7个阶段的块数分别为[1、2、3、4、3、3、1]。通过将第4阶段的最后1/2块和第[5,6]阶段的最后1/3块替换为ParC-MobilenetV2块,可以获得MobilenetV2 ParC。
ParC-ConvNeXt Block and ConvNeXt-ParC Network
ConvNeXt对原始ResNet50结构进行了一系列修改,以学习transformers。在此期间,3×3卷积替换为7×7深度卷积。这扩大了局部感受野,但仍无法分级全局信息。作者进一步用depthwise ParC替换ConvNeXt块中的7×7深度卷积。由此得到了ParC ConvNeXt区块(见图5(d))。将ConvNeXt最后两个阶段的最后1/3块替换为ParC ConvNeXt块,得到了ConvNeX t ParC的一个示例。将ConvNeXt-T中的基本通道数减少到48(即每个阶段为[48,96,192,384]),以获得一个轻量级ConvNeXt-XT,这在部署边缘计算设备时更受欢迎,而且实验周期也更短。
请注意,在ParC MetaFormer中,采用了ParC-H和ParC-W序列,以保持感受野与自注意力一致,因为这种设计用于取代自注意力。在ParC ConvNets中采用了ParC-H和ParC-V的并行结构(每一层都是单层),如图5所示。根据实验结果,这种设置已经可以提供足够的性能增益来对抗普通ConvNet。事实上,由于不仅使用一个ParC ConvNet块,ParC ConvNets仍然具有全局感受野。
实验
4.1、ImageNet-1K
4.2、语义分割与目标检测
4.3、实例分割
4.4、速度与参数对比
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢