论文链接:https://arxiv.org/pdf/2203.09195.pdf
代码链接:https://github.com/csjliang/LDL
导读
对抗生成网络GAN一直被认为是提升图像超分中纹理信息的重要手段。然而,现有研究证实,对抗生成网络存在训练不稳定问题与伪影问题。关于GAN的训练不稳定问题,目前已经有了一些trick缓解;但是关于GAN导致的伪影问题,暂无有效的方案。本文首次给出了上述问题的解决方案,基于伪影区域的局部统计结果经常与感知相似区域的细节不同这一发现,本文提出了一种框架以判别伪影和真实纹理细节,并生成相应的约束项。本文对GAN生成的伪影问题进行了探索并提出一种行之有效的方案:局部区域统计信息有助于伪影判别并进而生成mask引导训练过程。所提方案简单有效,可以轻易嵌入到现有超分方案中并提升其性能。
贡献
一般来讲,GAN-SR方案的训练损失可以描述如下:
其中三项分别代表重构的像素级损失,感知损失以及对抗损失。已有研究SRGAN证实:仅采用重建损失训练会导致重建结果过于模糊,而对抗损失引入可以重建更多纹理,但同时会引入伪影问题。
上图给出了ESRGAN在不同类型区域的重建前后下过对比,可以看到:
- 对于A类图像块,LRs输入仅包含结构信息且保持完整,现有方案可以有效重建;
- 对于B类图像块,由于纹理的随机分布性,尽管重建结构仍为"假性纹理"但视觉感知良好;
- 对于C类图像块,同时包含结构与纹理信息,此时重建的"假性纹理"会呈现不自然状态。
作者同时给出了GAN-SR模型可能的优化方向,如下图所示,
从仅使用重构损失预训练的 SISR 模型生成的模糊解决方案(图 2 中的中心块)开始,对抗损失可以沿许多可能的方向对其进行更新,一些产生令人愉悦的结果(在黄色框中)和一些产生不愉快的(在红色框中)。 这会导致不稳定的优化过程,可能会产生伪影以及细节。
图3进一步展示了GAN-SR在不同区域产生伪影的过程。可以看到,对于 A 型补丁,其 LR 版本中保留了大规模结构,且 HR 补丁具有良好的保真度和感知质量。 对于 B 型补丁,虽然它不是逐像素重建,但 GAN-SR 输出的感知质量还不错,这主要是因为类似纹理的块中的像素通常随机分布在相对较小的范围内,因此人眼难以感知像素级差异。
上图从训练稳定性角度出发对前述三种类型块的MAD()信息进行了对比,可以看到:A类图像块的训练比较稳定;B类图像块存在大波动(意味着更高不确定性);C类图像块具有最大的波动与不稳定性。
方法
结合前述分析,为使得GAN-SR具有更优异的重建效果,需要抑制C类型块的伪影生成,同时保持A和B类型块的纹理重建效果。为达成该目的,作者精心设计了一种pixel-wise map进行伪影与细节的判别并用于引导GAN-SR训练,下图各处了该map生成过程示意图。
正如上述所提,本文目的是寻找一个概率图用于表征各像素是伪影的概率。由于伪影与细节均位于图像高频区域,首先通过如下方式提取高频成分:
从上面图示第三列可以看到:A类型块具有非常小的残差;而B与C类型块具有较大残差,B的残差具有更强的随机性。基于上述残差图,进一步计算局部方差生成粗糙的概率图M:
从上面图示第4列可以看到:此时所得M能有效的检测C类块中的伪影像素。但是仅利用局部方差会引入不稳定性,A与B类块中也有部分像素被误判。为解决该问题,进一步从全局角度计算一个起稳定化作用的系数:
尽管上述方案已经可以有效判别不同块的伪影,但它仍会过度惩罚C类块中的真实细节、轻度惩罚A和B的重建细节,尤其是在训练早期阶段。为缓解该问题,我们进一步稳定训练过程并对伪影map进行精制。具体来说,引入EMA技术并构建两个残差图:
基于上述所得两个残差图进一步对前述所得M进行提炼更新:
从上面的图示第6列可以看到:经过此时的处理,细粒度纹理与边缘已从map中移除,确保了更精度的伪影像素惩罚调制。
基于上述精细的伪影概率图,本文构建了如下伪影判别损失:
该损失可以比较容易嵌入到现有GAN-SR方案中,最终的损失定义如下:
下图给出了本文所提LDL的训练流程。
实验
上表给出了合成数据集上不同方案的性能与重建效果对比,可以看到:
- 所提LDL方案可以有效提升感知质量指标(LPIPS, DISTS, FID)与重建精度(PSNR, SSIM);
- SRResNet+LDL在大多数数据集上均优于SFTGAN与SRGAN;RRDB+LDL方案同样具有比其他方案更优的客观指标;SwinIR+LDL的组合同样取得了进一步的性能提升。
从重建结果来看,相比ESRGAN、USRGAN以及SPSR,LDL的结果具有更少的伪影、更好的细节。当然,从图示最后一行来看,LDL方案重建结果仍存在一定伪影,并未完全解决,但提供了一个非常好的前进方向。
上图给出了真实尝尽盲超分的效果对比,可以看到:相比BSRGAN与Real-ESRGAN,RealESRGAN+LDL方案重建结果具有更少的伪影、更锐利的纹理细节。
评论
沙发等你来抢