- 简介通过将低帧率、低分辨率的视频转换为高帧率、高分辨率的视频,时空视频超分辨率技术可以增强视觉体验,促进更高效的信息传播。我们提出了一种用于时空视频超分辨率的卷积神经网络(CNN),即GIRNet。为了生成高度准确的特征,从而提高性能,所提出的网络集成了一个特征级时间插值模块,其中包括可变形卷积和全局空间-时间信息的残差卷积长短期记忆(convLSTM)模块。在特征级时间插值模块中,我们利用可变形卷积,该卷积适应不同场景位置上物体的变形和尺度变化,相对于传统的卷积提取移动物体的特征更加高效。我们的网络有效地使用前向和后向特征信息来确定帧间偏移,从而直接生成插值帧特征。在全局空间-时间信息的残差convLSTM模块中,第一个convLSTM用于从输入特征中导出全局空间-时间信息,第二个convLSTM使用先前计算的全局空间-时间信息特征作为其初始单元状态。这个第二个convLSTM采用残差连接来保留空间信息,从而增强输出特征。在Vimeo90K数据集上的实验表明,所提出的方法在峰值信噪比(比STARnet、TMNet和3DAttGAN分别提高了1.45 dB、1.14 dB和0.02 dB)、结构相似性指数(比STARnet、TMNet和3DAttGAN分别提高了0.027、0.023和0.006)和视觉效果方面优于现有技术。
- 图表
- 解决问题提高视频质量,将低分辨率、低帧率视频转换为高分辨率、高帧率视频
- 关键思路提出了一种卷积神经网络(CNN)GIRNet,结合了特征级时间插值模块和全局空时信息的残差卷积长短期记忆(convLSTM)模块,使用变形卷积适应不同场景位置的物体变形和尺度变化,从而提取特征,利用前向和后向特征信息确定帧间偏移量,直接生成插值帧特征,最终通过全局空时信息的残差convLSTM模块提高输出特征的空间信息保留能力
- 其它亮点在Vimeo90K数据集上实验,相比于STARnet、TMNet和3DAttGAN,GIRNet在峰值信噪比、结构相似性指数和视觉效果上都表现出更好的性能
- 最近的相关研究包括STARnet、TMNet和3DAttGAN
沙发等你来抢
去评论
评论
沙发等你来抢