论文地址:https://arxiv.org/abs/2205.05996
代码地址:https://github.com/xiaom233/BSRN
导读
单图像超分辨率(SISR)近年来已经取得了非凡的性能突破,但大部分算法的计算成本太高,使得它们无法应用于边缘设备。为了缓解这个问题,已有研究提出了许多新颖且有效的解决方案,例如,基于注意机制的卷积神经网络(CNN)由于其效率和有效性而受到越来越多的关注。但不可避免地,卷积操作中仍然存在冗余。在本文中,作者提出了包含两种有效设计的蓝图可分离残差网络(BSRN)。一种是使用蓝图可分离卷积(BSConv),它代替了冗余的卷积操作。另一种是通过引入更有效的注意力模块来增强模型能力。实验结果表明,BSRN 在现有的高效 SR 方法中实现了最先进的性能。此外,BSRN-S 的一个较小的变体在 NTIRE 2022 Efficient SR Challenge 的模型复杂度赛道中获得了第一名。
单幅图像超分辨率(SISR,以下简称SR)旨在由低分辨率输入重建并输出高分辨率图像,然而现有方法普遍存在模型容量大、计算复杂(密集层连接策略)等特点。对于更看重实际推理速度的现实场景而言,能做到轻量且有效的方法更被青睐。
而在现有流行的SOTA模型之一——RFDN中,一个明显的问题便是其存在大量冗余的卷积操作,这些冗余不可避免的为模型带来计算负担。
因此本文设计轻量级的蓝图可分离残差网络(BSNR)来解决上述问题,主要针对优化卷积操作和引入有效注意力模块两个方面展开。
方法
图2:BSNR整体架构示意图。
如图2所示,BSNR由四个部分所构成:浅层特征提取、深层特征提取、多层特征融合以及图像重建。
在第一个BSConv(蓝图卷积)之前,输入图片被简单复制并沿通道维度连接至一起。此处BSConv的作用是扩展通道至更高维度并进行浅层特征提取。
其中BSConv为CVPR 2020中论文《Rethinking Depthwise Separable Convolutions: How Intra-Kernel Correlations Lead to Improved MobileNets》所提出,这里仅做简要介绍:
简析蓝图卷积(BSConv)
蓝图卷积与GhostNet有异曲同工之妙,作者等人对卷积核进行可视化后,发现很多卷积核呈现类似的分布(即类似于一个模子/蓝图,经过不同线性变换得到),如下图:
图3:在ImageNet上训练的卷积核可视化示意图。
因此可将蓝图卷积表示如下(卷积核由蓝图内核(即一个K×K的卷积核)和一个M×1的权重向量组成):
图4:蓝图卷积(BSConv)示意图。
BSConv 使用一个 2d 蓝图内核来表示每个过滤器内核,该 2d 蓝图内核使用权重向量沿深度轴分布。
那么具体如何实现这样的卷积呢?对于BSConv-U(无限制蓝图卷积)来说,可视为深度可分离卷积的逆过程,即先对深度方向上加权组合再卷积,如下图所示:
图5:BSConv-U实现过程示意图。
即与深度可分离卷积(DSC)相比,DSC相当于隐式地假设一个用于所有内核的3D蓝图,而BSConv则是依赖于每个内核的单独2D蓝图。
回到图2,深层特征提取部分中顺序堆叠的若干个ESDB被用于提取并细化深度特征。同时不同阶段/深度的特征输出在多层特征融合部分被连接至一起,并通过1×1卷积和GELU函数进行进一步融合和映射。
图像重建之前,再次使用BSConv来细化融合并映射后的特征,同时一个横跨多个ESDB的残差连接被应用于重建前的特征。
最终的图像重建过程由一个标准3×3卷积层和pixel-shuffle操作组成,同时用如下损失函数进行优化(其中ISR表示模型输出):
模型核心组件——高效可分离蒸馏块(ESDB)剖析
图6:ESDB及部分细节示意图。
如图6 (b),ESDB由三个部分所构成:特征蒸馏(Conv-1)、特征浓缩/细化(BSRB)及特征增强(注意力模块)。
各级特征依次通过并行的蒸馏、浓缩操作,并在最后沿通道维度拼接起来,辅以1×1卷积进一步浓缩特征。
其中BSRB代表蓝图浅残差块,它以上述所介绍的无限制蓝图卷积为基础,辅以残差连接与GELU激活函数所组成。
为什么要使用蓝图卷积而不是其他的轻量级卷积操作呢?是因为作者等人考虑到,此前有大量研究证明在多数情况下蓝图卷积对标准卷积表现出更好的分离表现,因此使用蓝图卷积在轻量化的同时保持模型性能。其简单对比结果如下表所示:
表1:基于RFDN的不同卷积分解方式性能对比。
在模块的尾部,添加了两个不同的注意力模块来进一步提高模型表现能力。ESA代表增强空间注意模块(详见论文),其实现如图6 (e)所示。CCA则代表对比度感知通道注意模块(详见论文),其实现如图6 (f)所示,CCA不同于以往利用全局平均池化后的特征计算出的通道注意力,而是利用平均值与标准差之和的对比信息来计算通道注意力。
需要注意的是,论文中将ESA中的卷积替换为蓝图卷积,旨在减轻注意力计算带来的额外负担。
本文将两种不同的注意力方法设计为串联形式,先空间后通道。笔者思考CBAM中先通道后空间的方式,CBAM中作者等人对先空间后通道、先通道后空间、通道与空间并行这三种不同的注意力顺序进行了一些对比实验,最终先通道后空间的形式性能权衡最好。因此尚不清楚本文中两种不同的注意力模块交换次序后是否会带来更好的效果。
实验
论文进行了大量详细的性能对比实验,其与各种流行的SOTA方法比较结果如下:
其可视化结果如下:
其实际推理速度对比如下:
与其他卷积分解方法的对比结果同样可以验证其有效性:
此外,实验结果表明,本文提出的BSRN对非线性激活函数、模型深度、特征宽度的选择并不敏感:
尽管如此,BSRN仍能够取得efficient super-resolution赛道的冠军:
参考
https://hub.baai.ac.cn/view/17245
https://mp.weixin.qq.com/s/IWQIh7khIKYiUeS-_xNUwQ
https://arxiv.org/abs/2205.05996
https://hub.baai.ac.cn/view/17355
https://hub.baai.ac.cn/view/17016
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢