- 简介本文介绍了在长视频中,不同的行为会产生丰富的视听信号。最近的研究表明,音频和视频两种模态展示了不同的事件时间跨度和不同的标签。为了解决这两种模态在长视频中的相互作用,本文通过明确建模音频和视觉事件的时间跨度来处理这个问题。本文提出了时间间隔机器(TIM),其中,模态特定的时间间隔作为查询传递给一个transformer编码器,该编码器摄入长视频输入。编码器然后关注指定的时间间隔,以及两种模态中周围的上下文,以识别正在进行的行动。我们在三个长音视频数据集(EPIC-KITCHENS,Perception Test和AVE)上测试了TIM,报告了识别的最新技术(SOTA)。在EPIC-KITCHENS上,我们比使用LLMs和显著更大的预训练的以前的SOTA高出2.9%的top-1行动识别精度。此外,我们展示TIM可以适应行动检测,使用密集的多尺度时间间隔查询,在EPIC-KITCHENS-100上大多数指标上优于SOTA,并在Perception Test上展示了强大的性能。我们的实验表明,在实现这种性能方面,整合两种模态和建模它们的时间间隔起着关键作用。代码和模型在:https://github.com/JacobChalk/TIM。
-
- 图表
- 解决问题本文旨在解决长视频中音频和视频模态之间的相互作用问题,通过显式地建模音频和视觉事件的时间范围来实现这一目标。
- 关键思路本文提出了一种时间间隔机器(TIM)的模型,其中模态特定的时间间隔作为查询,输入到一个transformer编码器中。编码器会关注指定的时间间隔以及两种模态的周围上下文,以识别正在进行的动作。
- 其它亮点本文在EPIC-KITCHENS,Perception Test和AVE三个长音视频数据集上测试了TIM,并报告了识别方面的最新成果。此外,本文还展示了TIM可以通过使用密集的多尺度时间间隔查询来适应动作检测,并在EPIC-KITCHENS-100上的大多数指标上优于SOTA,并在Perception Test上表现出强大的性能。
- 最近的相关研究包括使用LLMs和更大的预训练的先前SOTA,以及其他使用transformer编码器的模型,如ViViT和Swin Transformer。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流