论文地址:https://arxiv.org/pdf/2111.09881.pdf

开源代码:https://github.com/swz30/Restormer

摘要

由于卷积神经网络(CNN)在从LARGESCALE数据中学习可通用的图像先验方面表现良好,因此这些模型已广泛应用于图像恢复和相关任务。最近,另一类的神经体系结构,变形金刚显示出关于自然语言和高级视觉任务的显着性能。尽管变压器模型减轻了CNN的缺点(即,对输入含量的有限的可接受场和不适应能力),但其计算复杂性随空间分辨率而倍增,因此使其不可避免地适用于涉及高分辨率图像的大多数图像恢复任务。在这项工作中,我们通过在构建块(多头注意力和前馈网络)中制作几个关键设计来提出一个有效的变压器模型,以便它可以捕获远程像素交互,同时仍然适用于大图像。我们的模型,名为Restoration Transformer(Restormer),在几个图像恢复任务上实现了最新的结果,包括图像恢复任务,单位运动脱张,DeFocus Deblurring(单片图像和双像素数据)和图像DeNoising(高斯灰度/颜色denoising和真实的图像denoising)。

主要贡献

这项工作的主要贡献如下:

  • 我们提出了Restormer,这是一种用于在高分辨率图像上学习多尺度局部全球表示的编码器Transformer,而无需将它们分解为本地窗口,从而利用了遥远的图像上下文。
  • 我们提出了能够汇总局部和非局部像素相互作用的多DCONV头移动注意力(MDTA)模块,并且足够有效地处理高分辨率图像。
  • 一个新的封闭式DCONV馈电网络(GDFN),该网络执行受控特征转换,即抑制较少的信息功能,并仅允许有用的信息进一步通过网络层次结构。

实验

我们为不同的图像恢复任务训练单独的模型。 在所有实验中,我们使用以下训练参数,除非另有说明。 我们的 Restormer 采用 4 级编码器-解码器。 从 level-1 到 level-4,Transformer 块的数量为 [4, 6, 6, 8],MDTA 中的注意力头为 [1, 2, 4, 8],通道数为 [48, 96, 192, 384]。