论文链接:https://arxiv.org/abs/2112.08950
代码链接:https://github.com/bjmch/MRVSR
导读
循环模型在基于深度学习 (DL) 的视频超分辨率 (VSR) 中越来越受欢迎,因为与基于滑动窗口的模型相比,它们具有更高的计算效率、时间感受野和时间一致性。然而,当推断呈现低运动(即场景的某些部分几乎没有移动)的长视频序列时,循环模型会通过循环处理而发散,产生高频伪影。据作者所知,没有任何关于 VSR 的研究指出这个不稳定性问题,这对于某些实际应用来说可能是至关重要的。视频监控是会出现此类伪影的典型示例,因为摄像机和场景都会长时间保持静止。在这项工作中,作者暴露了现有循环 VSR 网络在低运动长序列上的不稳定性。作者在作者创建的一个新的长序列数据集准静态视频集上演示了它。最后,作者基于 Lipschitz 稳定性理论引入了一个新的循环 VSR 网络框架,它既稳定又具有竞争力。作者基于这个框架提出了一个新的循环 VSR 网络,创造了中间循环视频超分辨率(MRVSR)。作者凭经验展示了它在低运动的长序列上的竞争性能。
贡献
视频超分辨,Video super-resolution,即从低分辨率的视频中恢复出高质量的视频序列,是比图像超分辨更为困难的任务。VSR 与图像超分有着复杂的区别,它的目的是通过多个低分辨率图像的融合产生感分辨率图像。 因此,VSR 需要在尽可能多的低分辨率帧上积累信息。 基于图像序列模拟、运动知识和循环算法的经典 VSR 方法可以满足这一要求。 但是,这些算法的运行效率相对较慢,不适合实际应用。此外,它们对于慢动作的长时间序列的处理并不理想,比如视频监控的应用中。
由于不精确隐藏状态叠加,随着时间推移超分辨率结果会产生伪影。此外,循环VSR模型在推理小动作范围的长视频序列时(其中一些场景几乎没有移动),循环处理产生偏差导致高频伪影。在这些循环网络中,为了在时间步 t 处对帧进行超分,模型除了使用 1-3张低质量帧之外,还需要将前一个时间步 t-1 中计算的隐藏状态或输出作为输入。 这种递归机制实现了长距离帧之间的信息传递。
然而,由于计算、内存限制以及梯度消失和爆炸等问题,循环 VSR 模型需要先在7-12张图像组成的序列上进行训练,然后进行测试。在视频监控等应用中,VSR模型需要对任意长度的序列进行超分。 然而,循环模型没有在这些长序列上进行训练。 因此,不能保证它们在长序列上表现最佳。
在这项研究中,作者展示了循环 VSR 网络在推断呈现低运动的长视频序列时会产生高频伪影,即超分辨率过程产生高频信息,这些信息在长期重复中积累,产生伪影并引起发散。因此,本文首先构造了一个长时间序列数据集 — Quasi-Static,然后在这个数据集上揭示了这种不稳定性。通过Lipschitz稳定性理论,本文提出了一个稳定且有竞争力的循环VSR网络(Middle Recurrent Video Super-ResolutionM,RVSR)来解决上述问题。
方法
由于计算和内存的限制,以及梯度消失和爆炸,循环VSR模型通常在7到12帧上进行训练。然后它们被用于推理任意长度序列。如下图所示,本文发现当推断低运动的长视频序列时(场景几乎不移动,e.g.准静态的相机),循环VSR网络会产生高频伪影。
这种意想不到的行为对于一些现实应用可能是至关重要的,比如在视频监控中,摄像机和场景都长时间保持静态。
循环VSR的稳定性
先介绍一下Lipschitz连续,满足如下性质的任意连续函数f(x)称为L-Lipschitz:
可以看出满足K-Lipschitz的函数在任意两点之间的连线斜率小于等于L,那么也就是函数任意点的导数也小于等于L。VSR中,循环信息ht和输出图像yt在时间步t更新如下:
当∅L收缩于h,循环模型被认为是Lipschitz稳定的。假设∅L由K个卷积层组成,其中有ReLU相互间隔。每个卷积层都可以用一个权重矩阵进行编码,权重矩阵由该层的核张量得到,是双块循环矩阵的块矩阵。由于ReLU的Lipschitz常数为1,L的数值为所有权重矩阵的谱范数乘积。
无约束稳定循环VSR
将SRNL应用于α,β均等于1的RLSP,这导致了一个稳定的网络,但VSR性能较差。这是因为最终的架构被限制为全局1-Lipschitz,而一个成功的超分函数不可能是1-Lipschitz的,因为一些频率需要增强。为此,本文定义了一种新的循环VSR网络,该网络在长序列上稳定且具有竞争力,如下:
其中z为特征,∅L由硬Lipschitz约束。本网络的内部循环的所有层都是收缩的,这保证了它随着时间的推移的稳定性。这种网络在Lipschitz连续性方面不受全局约束,因为它的输入和输出网络是非收缩的,可以保持其充分的表达性。大部分的反卷积任务是通过ξ和ψ来完成的。
MRVSR
本文设计了一个新的网络MRVSR来实现上述过程。如下图所示,结构很简单,由卷积和ReLU构成。
Quasi-Static测试集
本文引入了一种新的长序列测试集,其中相机是准静态的,前景物体是移动的。它从vimeo.com和youtube.com下载视频,并提取了4个序列。其中前两个是Full HD和HD Ready,后两个是4K。HD和4K序列分别下采样2和4倍。
这4个序列在帧数上分别有以下长度:379,379,379和172。它们构成Quasi-Static测试数据集。此外,第一个序列的视频包含更大数量的帧,称为,包含8782帧。所有这些序列都可以在https://github.com/bjmch/MRVSR上得到。
实验
在处理的帧数量相对较少之前,现有的循环网络(RLSP, RSDN和FRVSR)的性能是最优的,仍然比基线模型更好。但在某一点上,它们的性能下降,变得比基线模型更差,这表明递归在每一帧都集成了有害信息。
RLSP-SL 面临与现有循环网络相同的问题。 在序列开始时优于基线 RFS3 后,它会发散(图 3)。 它会产生高频伪影(图 4d),并且它在序列结束时的性能很差,如 Tab 所示。 1(与最后 50 次重建的 RFS3 相比,平均 PSNR 为 -2.09dB,平均 SSIM 为 -0.0284)。 这证明 SL 不足以防止背离。
在Vid4上的平均PSNR,模型大小和运行时间,可以看到MRVSR在短时间序列上并不理想
Quasi-Static测试集的第一个序列的第376帧的定性评估
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢