Leveraging Compressed Frame Sizes For Ultra-Fast Video Classification

2024年03月13日
  • 简介
    将视频分类为不同的类别,如运动和音乐视频,对于多媒体理解和检索至关重要,特别是在不断产生大量视频内容的情况下。传统方法需要视频解压缩,提取像素级特征,如颜色、纹理和运动,从而增加了计算和存储需求。此外,这些方法通常在低质量视频中表现出性能下降。我们提出了一种新的方法,仅检查视频的后压缩比特流以执行分类,消除了比特流解码的需要。为了验证我们的方法,我们建立了一个全面的数据集,包括超过29,000个YouTube视频片段,总计6,000小时,涵盖11个不同的类别。我们的评估表明,精确度、准确度和召回率一直保持在80%以上,其中许多超过90%,有些甚至达到了99%。该算法在30fps视频的实时处理速度约为15,000倍,比传统的动态时间规整(DTW)算法高出七个数量级。
  • 图表
  • 解决问题
    使用传统方法对视频进行分类需要进行视频解压以提取像素级特征,增加了计算和存储需求,而且在低质量视频中性能下降。本文旨在通过仅检查视频的压缩比特流来执行分类,消除了比特流解码的需要。
  • 关键思路
    本文提出了一种检查视频的压缩比特流来执行分类的方法,消除了比特流解码的需要。
  • 其它亮点
    本文建立了一个包含超过29,000个YouTube视频剪辑的综合数据集,总计6,000小时,涵盖11个不同类别。评估结果表明,准确率、精确率和召回率一致高于80%,许多超过90%,一些达到99%。算法对于30fps视频的操作速度约为实时的15,000倍,比传统的Dynamic Time Warping(DTW)算法快七个数量级。
  • 相关研究
    最近的相关研究包括:“Video Classification Using Semantic Concept Co-Occurrence (SCCO) Patterns”,“Video classification based on HOG-LBP and motion boundary descriptor”,“Real-time video classification using spatiotemporal descriptors and multi-classifier combination”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论