本文分享论文『Recurrent Video Restoration Transformer with Guided Deformable Attention』,是 Jingyun 大佬继SwinIR,VRT之后的又一篇力作,在Transformer结构中套用了循环架构,并从帧级对齐扩展到片段对齐。RVRT在VID4上超过了VRT,在REDS4上超过了Basicvsr++!

作者单位:苏黎世联邦理工、Meta、维尔茨堡大学 

论文链接:

https://arxiv.org/pdf/2206.02146.pdf

项目链接:

https://github.com/JingyunLiang/RVRT

现有的视频恢复方法主要有两种 :
  1. 并行恢复所有帧,它具有时间信息融合的优势,但是模型尺寸大,内存消耗大
  2. 循环逐帧恢复,它跨帧共享参数所以模型尺寸较小,但是缺乏长期建模能力和并行性

本文提出循环视频恢复transformer(RVRT)来结合这上述优点,它在全局循环框架内并行的处理局部相邻帧从而在模型大小和效率之间实现良好的权衡,主要的贡献如下:
  • RVRT将视频分成多个片段,利用先前的片段特征来估计后续的片段特征。通过减小视频序列长度并且以更大的隐藏状态传递信息,缓解了循环网络中的信息丢失和噪声放大,还可以使模型部分并行化。

  • 使用引导变形注意(GDA)从整个推断片段中预测多个相关位置,然后通过注意机制聚合它们的特征来进行片段间对齐。

  • 在超分去噪去模糊的多基准数据集上实现了SOTA。

内容中包含的图片若涉及版权问题,请及时与我们联系删除