Transformer在图像复原领域的降维打击！ETH提出SwinIR：各项任务全面领先

鲜少有工作将transformer用于图像复原方向，而ETH的学者近日提出基于Swin Transformer的一种强基线模型SwinIR用于图像复原，该工作在经典图像超分、真实场景图像超分、图像降噪与JPEG压缩伪影移除都取得了显著优于已有方案的性能。

原文链接：https://arxiv.org/abs/2108.10257

code：https://github.com/JingyunLiang/SwinIR（未开源）

摘要

图像复原(存在已久的low-level视觉问题)旨在根据低质图像(比如，下采样的、带噪的、压缩的图像)复原高质量图像。现有优异图像复原方案往往采用CNN，鲜少有Transformer(已在high-level视觉任务中取得骄人成绩)类方案在该类问题中进行探索尝试。

本文基于Swin Transformer提出一种强基线模型SwinIR用于图像复原。SwinIR包含三部分：浅层特征提取、深层特征提取以及高质量图像重建。具体而言，深层特征提取由多个RSTB(Residual Swin Transformer Blocks)构成，每个RSTB由多个Swin Transformer层与残差连接构成。

相比CNN方案，Swin具有以下几个优势：

基于内容交互的图像内容与注意力权值可以视作空域可变卷积；
RSTB中的移位窗口机制可以进行长距离依赖建模；
更优的性能、更少的参数(可参见下图：SwinIR具有更少的参数量、更优的性能)。

我们在三个极具代表性的任务(图像超分、图像降噪以及JPEG压缩伪影移除)上进行了实验。实验结果表明：所提SwinIR能够以0.14~0.45dB优于其他SOTA方案，同时参数量降低高达67%。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Transformer在图像复原领域的降维打击！ETH提出SwinIR：各项任务全面领先

摘要

评论列表

评论