Label-anticipated Event Disentanglement for Audio-Visual Video Parsing

向作者提问

NEW

简介

音视频解析（AVVP）任务旨在检测和时间定位音频和视觉模态中的事件。多个事件可能在时间轴上重叠，使得识别变得具有挑战性。传统方法通常注重改进早期的音视频编码器以嵌入更有效的特征，而解码阶段——对于最终事件分类至关重要的阶段——往往受到较少关注。我们旨在推进解码阶段并提高其可解释性。具体而言，我们引入了一种新的解码范式，称为基于标签语义的投影（LEAP），它使用事件类别的标签文本，每个标签都具有明确的语义，用于解析潜在重叠的事件。LEAP通过迭代地将音频/视觉片段的编码潜在特征投影到语义独立的标签嵌入中来工作。这个过程通过建模跨模态（音频/视觉-标签）交互而得以丰富，逐渐解开视频片段内的事件语义，以精细化相关标签嵌入，从而保证更具区分性和可解释性的解码过程。为了促进LEAP范式，我们提出了一种语义感知的优化策略，其中包括一种新颖的音视频语义相似度损失函数。该函数利用音频和视觉事件的交集比（EIoU）作为新颖的度量标准，在特征级别上校准音视频相似性，以适应模态间不同的事件密度。广泛的实验证明了我们方法的优越性，实现了AVVP的新的最先进表现，并增强了相关的音视频事件定位任务。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决音频和视频模态中的事件检测和时间定位问题，特别是在存在重叠事件的情况下。同时，该论文试图提高解码阶段的可解释性。
关键思路

该论文提出了一种新的解码范式，称为LEAP，该范式使用事件类别的标签文本来解析潜在重叠事件。LEAP通过将音频/视频片段的编码潜在特征迭代地投影到语义独立的标签嵌入中，逐步解开视频片段内的事件语义，以改进相关的解码过程。
其它亮点

该论文提出了一种语义感知的优化策略，其中包括一种新的音频-视觉语义相似性损失函数。LEAP范式在AVVP任务中表现出优越性能，同时还提高了相关的音频-视觉事件定位任务。该论文的实验设计充分，使用多个数据集进行了测试，并开源了代码。
相关研究

在这个领域中，还有一些相关的研究，如《Audio-Visual Event Localization in Unconstrained Videos》、《AVSD-GNN: Audio-Visual Scene-Aware Dialog with Graph Neural Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问