Label-anticipated Event Disentanglement for Audio-Visual Video Parsing

2024年07月11日
  • 简介
    音视频解析(AVVP)任务旨在检测和时间定位音频和视觉模态中的事件。多个事件可能在时间轴上重叠,使得识别变得具有挑战性。传统方法通常注重改进早期的音视频编码器以嵌入更有效的特征,而解码阶段——对于最终事件分类至关重要的阶段——往往受到较少关注。我们旨在推进解码阶段并提高其可解释性。具体而言,我们引入了一种新的解码范式,称为基于标签语义的投影(LEAP),它使用事件类别的标签文本,每个标签都具有明确的语义,用于解析潜在重叠的事件。LEAP通过迭代地将音频/视觉片段的编码潜在特征投影到语义独立的标签嵌入中来工作。这个过程通过建模跨模态(音频/视觉-标签)交互而得以丰富,逐渐解开视频片段内的事件语义,以精细化相关标签嵌入,从而保证更具区分性和可解释性的解码过程。为了促进LEAP范式,我们提出了一种语义感知的优化策略,其中包括一种新颖的音视频语义相似度损失函数。该函数利用音频和视觉事件的交集比(EIoU)作为新颖的度量标准,在特征级别上校准音视频相似性,以适应模态间不同的事件密度。广泛的实验证明了我们方法的优越性,实现了AVVP的新的最先进表现,并增强了相关的音视频事件定位任务。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决音频和视频模态中的事件检测和时间定位问题,特别是在存在重叠事件的情况下。同时,该论文试图提高解码阶段的可解释性。
  • 关键思路
    该论文提出了一种新的解码范式,称为LEAP,该范式使用事件类别的标签文本来解析潜在重叠事件。LEAP通过将音频/视频片段的编码潜在特征迭代地投影到语义独立的标签嵌入中,逐步解开视频片段内的事件语义,以改进相关的解码过程。
  • 其它亮点
    该论文提出了一种语义感知的优化策略,其中包括一种新的音频-视觉语义相似性损失函数。LEAP范式在AVVP任务中表现出优越性能,同时还提高了相关的音频-视觉事件定位任务。该论文的实验设计充分,使用多个数据集进行了测试,并开源了代码。
  • 相关研究
    在这个领域中,还有一些相关的研究,如《Audio-Visual Event Localization in Unconstrained Videos》、《AVSD-GNN: Audio-Visual Scene-Aware Dialog with Graph Neural Networks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问