作者单位:西交、字节智能创造实验室、南京理工

论文名称:Boosting Video Super Resolution with Patch-Based Temporal Redundancy Optimization

论文链接:https://arxiv.org/pdf/2207.08674.pdf

代码链接:https://github.com/HYHsimon/Boosted-VSR

 

导读

现有视频超分辨率(VSR)算法的成功主要是从相邻框架中利用时间信息。但是,这些方法都没有讨论带有固定物体和背景的贴片中时间冗余的影响,并且通常使用相邻框架中的所有信息而没有任何歧视。在本文中,我们观察到时间冗余将对信息传播产生不利影响,这限制了最现有的VSR方法的性能。在这一观察结果的推动下,我们旨在通过以优化的方式处理时间冗余贴片来改善现有的VSR算法。我们开发了两种简单但有效的插件方法,以提高广泛使用的公共视频中现有的本地和非本地传播算法的性能。为了更全面地评估现有VSR算法的鲁棒性和性能,我们还收集了一个新数据集,其中包含各种公共视频作为测试集。广泛的评估表明,所提出的方法可以显着提高野生场景中收集的视频的现有VSR方法的性能,同时保持其在现有常用数据集上的性能。

 

贡献

VSR的相邻帧包含静止物体、背景等相似内容(时间冗余)。如果这些时间冗余内容主导了传播过程,由于没有从时间域引入额外的有用信息,将不利于重建。然而,现有的大多数方法都是利用相邻帧的所有信息而不加区分,这会引入时间冗余。

如图1所示,通过利用相邻补丁的时间信息,两种网络在动态补丁中都能取得更好的效果。由于存在时间冗余内容,在目标和背景静止的补丁中,单帧算法的性能优于VSR网络,这表明时间冗余可能会对VSR产生不利影响。
本文尝试以优化的方式来处理补丁。动机来源于两个观察:时间冗余内容在不同类型的视频上具有通用性,SISR更适合处理具有时间冗余内容的补丁。本文提出了一种拥有时间冗余检测模块的基于局部传播的方法,并部署到EDVR中(Boosted EDVR);由于邻近帧的时间冗余会消除较远帧的时间信息,补丁中的时间冗余会阻碍隐藏状态的传播。

本文提出了一种基于补丁的动态传播策略,它可以以补丁的方式直接传播长时间信息,该传播方案被应用到BasicVSR中(Boosted BasicVSR)。此外,本文还收集了一个新的测试集,如下图,以全面评估VSR的性能和鲁棒性。此数据集适合于评估时间冗余的重要性,并可以丰富现有数据集的视频类型。

 

方法

时间冗余的观察

观察一:在广泛使用的公共视频中,时间冗余内容是普遍存在的为方便起见,将具有静止物体和背景的补丁序列记为A类序列,将动态补丁序列记为B类序列。本文对验证集的切片补丁进行统计分析。在相邻五帧中,有69.92%的补丁序列是A类的,相邻11帧中仍有64.79%的补丁序列是A类的。这表明,A类序列在广泛使用的公共视频中是普遍存在的。
观察二:SISR更适合处理A类序列本文使用 EDVR-1f 和原始 EDVR(EDVR-5f)对验证集中的所有A类和B类序列进行超分。如下表,虽然EDVR-5f在B类序列上取得了更好的结果,但SISR方法(EDVR-1f)在A类序列上的性能优于EDVR-5f,且计算成本更低。因此可以得出SISR更适合处理具有时间冗余的补丁。

观察三:时间冗余补丁会阻碍非局部传播VSR网络的传播本文从REDS数据集中选取四个视频,为了模拟A类序列并引入时间冗余,从每个视频中随机选取10帧并进行1~5次的复制,并用BasicVSR对齐进行超分(REDS训练的和Vimeo训练的)。如下图,性能都随着时间冗余帧长度的增加而下降,这说明时间冗余会阻碍循环VSR网络信息的传播,带来负面影响。

Boosted EDVR

Boosted EDVR 由两个模块组成:时间冗余检测模块(TRDM)和自适应超分辨率模块(ASRM),如下图。

首先将输入的5帧LR相邻帧分解为N个重叠的补丁序列。然后将分解后的每个补丁序列送入TRDM,根据其在相邻补丁之间的运动状态分配一个运动标签。

然后将所有具有相同标签的补丁集在 Batch 维度上进行叠加,并在ASRM中使用最优EDVR模型进行超分。最后,我们将所有的超分补丁{yit}Ni=1进行组合,得到最终的SR结果Yt。本文使用光流的均值来表示两个补丁之间的运动状态,表示为:

其中f是光流估计器,m为补丁序列中参考帧和相邻帧的运动状态。然后,根据运动状态来分配运动标签:



其中,γ为区分阈值。通过TRDM可以确定在接下来的ASRM中使用哪个模型来获得更好的超分结果。ASRM由原始EDVR (EDVR-5f)及其两个变体(EDVR-3f和EDVR-1f)组成。EDVR-3f模型用来处理时间冗余发生在补丁序列的边缘。

对于EDVR-1f和EDVR-3f, PCD对齐模块和TSA模块中的时间注意层分别只执行一次和三次,并将特征复制到与EDVR-5f相同的形状,然后发送到TSA模块的融合卷积层,更多细节可以在补充部分找到。

Boosted BasicVSR

为了更好地利用长期信息,本文提出了一种新的即插即用方法,引入了基于补丁的动态传播(PDP)分支,以补丁的方式动态传播长期信息。如下图所示。

本文将提出的即插即用方法部署到BasicVSR中,即Boosted BasicVSR,用提出的PDP分支替换原有的传播分支。与BasicVSR中的传播分支不同,本文提出的前向PDP分支采用动态传播,当前帧的每个补丁都可以接收到不同帧的信息。

为此,提出的前向PDP分支维护一个补丁池和对应的隐藏状态池φ来恢复不同帧补丁的有用信息。然后,前向PDP分支以当前LR帧、和φ为输入,产生前向特征同时基于时间冗余检测更新和φ。这样可以使长期帧中的有用信息直接连接到当前帧,而不会积累无用的冗余信息。

PDP分支的详细情况如上图(b)所示,该分支包括特性聚合和补丁池更新两个阶段。特征聚合的目的是将池中的信息与当前帧进行聚合。为了估计隐藏状态池的光流,首先将输入帧分解为N个小块,然后和池中的数据一起馈入到光流估计器(S)。

然后利用估计的流量对隐藏状态池中的补丁进行扭曲(W)。通过将变形的隐藏状态池和当前帧的重叠块输入到残差块中,得到当前帧的中间特征补丁φ,既前向特征。由于已经得到了特征聚集阶段的光流,直接使用Boosted EDVR中的公式即可得到和之间所有对应patch的运动状态。

为了保证有用信息的积累,当该补丁的运动状态大于阈值时,两个池中的每个补丁集将被当前帧对应的补丁的信息所替换。否则,意味着这两个补丁存在时间冗余,将丢弃当前帧的信息,避免有用信息消失。更新后的池将传播到下一帧。

 

实验

消融实验

Boosted EDVR的消融实验

我们将这两种配置表示为TREDVR-fine和TR-EDVR-ori。如表3所示,通过微调,TR-EDVR-fine可以比TR-EDVR-ori实现1.52 dB的性能增益,并以更少的失败优于原来的EDVR。这些结果也证明了所提出的具有时间冗余检测模块的管道的有效性,该模块可以用最优模型自适应地超解析不同的补丁集。由于光流被广泛用于描述运动信息,我们使用DIS[20]光流的平均值来表示运动状态,并形成增强的EDVR-(15)。

PDP分支的消融实验

在这部分中,我们将评估在提出的基于补丁的动态传播(PDP)中三个关键因素的重要性:时间冗余检测、动态传播和补丁策略。如表4所示,在REDS上训练的BasicVSR在验证集上的性能比原始EDVR(27.96 dB vs. 33.42 dB)要差得多,这与现有数据集上的结果相矛盾。

定量评估

在REDS、Vid4、DTVIT上的定量评估,可以看到在DTVIT数据集上效果比较明显。表5中的第一列和第二列显示了REDS和Vid4数据集上的定量结果,其中所有的测试视频都是具有移动一致的第一人称视频。正如预期的那样,所提出的增强的EDVR和增强的BasicVSR只能在这两个数据集上获得与EDVR和BasicVSR相当的性能,因为它们针对具有时间冗余的视频进行了优化。然而,在第一人称视频上的稳定性能表明,所提出的方法具有鲁棒性,不会对现有的数据集带来任何不利影响。为了全面评价VSR算法在不同类型的公共视频上的性能,我们还在收集到的DTVIT数据集上评价了这些算法。如表5第三列所示,由于泛化问题,在REDS数据集上训练的BasicVSR在收集到的视频数据集上表现不佳。虽然EDVR-M和EDVR-L比其他方法取得了良好的性能,但所提出的Boosted EDVR可以比EDVR-M进一步提高0.91 dB,并以更低的计算成本优于EDVR-L。此外,所提出的增强型BasicVSR还可以解决一般性问题。

定性评估

内容中包含的图片若涉及版权问题,请及时与我们联系删除