Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning

简介

在互联网平台上广泛存在的视频编辑中，识别原始视频材料的亮点时刻对于提高编辑效率至关重要。然而，手动标记镜头的大量工作为应用监督方法于未知类别的视频制造了障碍。许多视频中缺乏包含有价值亮点检测线索的音频模态，这也使得使用多模态策略变得困难。本文提出了一种新颖的交叉模态感知模型，用于无监督亮点检测。该模型通过自重构任务从图像-音频对数据中学习具有视听级别语义的表示。为了实现无监督亮点检测，我们研究了网络的潜在表示，并提出了表示激活序列学习（RASL）模块，采用k点对比学习来学习重要的表示激活。为了将视觉模态与音频模态联系起来，我们使用对称对比学习（SCL）模块来学习配对的视觉和音频表示。此外，在预训练期间还同时进行了掩蔽特征向量序列（FVS）重构的辅助任务，以增强表示。在推理期间，跨模态预训练模型可以仅通过视觉模态生成具有配对的视听语义的表示。RASL模块用于输出亮点得分。实验结果表明，与其他最先进的方法相比，所提出的框架实现了更优异的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一种跨模态感知的无监督方法来检测视频中的亮点，以解决手动标注视频素材的繁琐工作和缺乏音频模态的问题。
关键思路

论文提出了一个基于自重构任务的视觉-音频级语义表示学习模型，使用对比学习来学习显著的表示激活，并使用对称对比学习模块将视觉模态和音频模态相互连接，从而实现跨模态预训练。
其它亮点

论文设计了一个RASL模块，使用k点对比学习来学习表示激活序列，提出了一个辅助任务的掩码特征向量序列重构，实现了无监督的亮点检测，实验结果表明该模型的性能优于其他现有方法。
相关研究

在这个领域中，最近的相关研究包括《Unsupervised Learning of Object Landmarks through Conditional Image Generation》和《Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles》等。

Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning

提问交流

提问交流