Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence

2024年07月18日
  • 简介
    随着视频内容的指数增长,自动化视频亮点检测的需求变得越来越迫切,以从冗长的视频中提取关键时刻或亮点。这项技术有潜力显著增强用户体验,通过允许快速访问跨不同领域的相关内容。现有方法通常依赖于昂贵的手动标记的帧级注释,或者依赖于大型外部视频数据集通过类别信息进行弱监督。为了克服这一点,我们专注于无监督的视频亮点检测,消除了手动注释的需要。我们提出了一种创新的无监督方法,利用了重要时刻倾向于在相似类别的多个视频中在音频和视觉模态下重复出现的前提。令人惊讶的是,尽管音频具有检测关键时刻的潜力,但它在无监督算法中仍然不够探索。通过聚类技术,我们识别视频的伪类别,并通过测量每个伪类别中所有视频的音频特征之间的相似性来计算每个视频的音频伪亮点分数。同样,我们也使用视觉特征为每个视频计算视觉伪亮点分数。随后,我们将音频和视觉伪亮点结合起来,创建每个视频的音频-视觉伪基准亮点,以训练音频-视觉亮点检测网络。对三个亮点检测基准的广泛实验和消融研究展示了我们的方法在先前工作中的优越性能。
  • 图表
  • 解决问题
    论文旨在解决视频突出特征检测的问题,通过无监督学习的方法提取视频中的关键时刻,避免了手动标注的成本和大量外部数据集的依赖。
  • 关键思路
    论文提出了一种基于音频和视觉特征的无监督聚类方法,将视频分为伪类别,并计算每个视频的视觉和音频伪突出分数,最终结合两种分数构建音频-视觉伪地面真实突出,用于训练音频-视觉突出检测网络。
  • 其它亮点
    论文通过实验和消融研究展示了该方法在三个突出检测基准数据集上的优越性能,相较于之前的方法,该方法使用了音频特征,提高了突出特征的检测效果。
  • 相关研究
    最近的相关研究包括基于深度学习的视频突出检测方法,如《Revisiting Video Saliency: A Large-scale Benchmark and A New Model》和《Video Highlight Detection Using Deep Structural Ranking》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论