鲜少有工作将transformer用于图像复原方向,而ETH的学者近日提出基于Swin Transformer的一种强基线模型SwinIR用于图像复原,该工作在经典图像超分、真实场景图像超分、图像降噪与JPEG压缩伪影移除都取得了显著优于已有方案的性能。

原文链接:https://arxiv.org/abs/2108.10257
code:https://github.com/JingyunLiang/SwinIR(未开源)
摘要
图像复原(存在已久的low-level视觉问题)旨在根据低质图像(比如,下采样的、带噪的、压缩的图像)复原高质量图像。现有优异图像复原方案往往采用CNN,鲜少有Transformer(已在high-level视觉任务中取得骄人成绩)类方案在该类问题中进行探索尝试。
本文基于Swin Transformer提出一种强基线模型SwinIR用于图像复原。SwinIR包含三部分:浅层特征提取、深层特征提取以及高质量图像重建。具体而言,深层特征提取由多个RSTB(Residual Swin Transformer Blocks)构成,每个RSTB由多个Swin Transformer层与残差连接构成。
相比CNN方案,Swin具有以下几个优势:
-
基于内容交互的图像内容与注意力权值可以视作空域可变卷积;
-
RSTB中的移位窗口机制可以进行长距离依赖建模;
-
更优的性能、更少的参数(可参见下图:SwinIR具有更少的参数量、更优的性能)。

我们在三个极具代表性的任务(图像超分、图像降噪以及JPEG压缩伪影移除)上进行了实验。实验结果表明:所提SwinIR能够以0.14~0.45dB优于其他SOTA方案,同时参数量降低高达67%。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢