CLIPVQA:Video Quality Assessment via CLIP

2024年07月06日
  • 简介
    本文提出了一种基于对比学习语言-图像预训练(CLIP)机制的Transformer方法,用于视频质量评估(VQA)问题(CLIPVQA)。在从Web规模数据学习视觉-语言表示方面,CLIP机制已经在许多视觉任务中展现出了卓越的性能。然而,它在广泛研究的VQA任务中的应用仍然是一个开放问题。具体来说,本文首先设计了一种有效的视频帧感知范式,旨在提取视频帧之间的丰富时空质量和内容信息。然后,使用自注意机制充分整合时空质量特征,产生视频级质量表示。为了利用视频的质量语言描述进行监督,我们开发了一个基于CLIP的语言嵌入编码器,然后通过交叉注意模块充分聚合生成的内容信息,产生视频-语言表示。最后,视频级质量和视频-语言表示被融合在一起进行最终的视频质量预测,其中采用矢量回归损失进行高效的端到端优化。在八个野外视频数据集上进行了全面的实验,涵盖了各种分辨率,以评估CLIPVQA的性能。实验结果表明,所提出的CLIPVQA实现了新的VQA性能最佳,并且比现有基准VQA方法具有高达37%的更好的泛化能力。还进行了一系列消融研究,以验证CLIPVQA中每个模块的有效性。
  • 图表
  • 解决问题
    提出一种基于CLIP机制的Transformer方法用于视频质量评估(VQA)问题,解决当前VQA方法的泛化性不足的问题。
  • 关键思路
    通过设计一个有效的视频帧感知范式,将视频帧之间的丰富时空质量和内容信息提取出来,并使用自注意机制充分整合这些时空质量特征,生成视频级别的质量表示。同时,结合CLIP机制进行语言嵌入,通过交叉注意模块将生成的内容信息与语言描述整合成视频-语言表示,最终将视频级别的质量和视频-语言表示融合起来进行视频质量预测。
  • 其它亮点
    论文在八个野外视频数据集上进行了全面的实验,证明了CLIPVQA方法在VQA任务上的优越性,比现有基准方法的泛化性提高了37%。论文还进行了一系列消融实验,证明了每个模块的有效性。
  • 相关研究
    近期在这个领域中的相关研究包括:"Learning to Predict Video Quality with Fewer Annotations"、"Deep Video Quality Prediction Based on Multi-Model Fusion"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论