TIM: A Time Interval Machine for Audio-Visual Action Recognition

简介

本文介绍了在长视频中，不同的行为会产生丰富的视听信号。最近的研究表明，音频和视频两种模态展示了不同的事件时间跨度和不同的标签。为了解决这两种模态在长视频中的相互作用，本文通过明确建模音频和视觉事件的时间跨度来处理这个问题。本文提出了时间间隔机器（TIM），其中，模态特定的时间间隔作为查询传递给一个transformer编码器，该编码器摄入长视频输入。编码器然后关注指定的时间间隔，以及两种模态中周围的上下文，以识别正在进行的行动。我们在三个长音视频数据集（EPIC-KITCHENS，Perception Test和AVE）上测试了TIM，报告了识别的最新技术（SOTA）。在EPIC-KITCHENS上，我们比使用LLMs和显著更大的预训练的以前的SOTA高出2.9％的top-1行动识别精度。此外，我们展示TIM可以适应行动检测，使用密集的多尺度时间间隔查询，在EPIC-KITCHENS-100上大多数指标上优于SOTA，并在Perception Test上展示了强大的性能。我们的实验表明，在实现这种性能方面，整合两种模态和建模它们的时间间隔起着关键作用。代码和模型在：https://github.com/JacobChalk/TIM。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决长视频中音频和视频模态之间的相互作用问题，通过显式地建模音频和视觉事件的时间范围来实现这一目标。
关键思路

本文提出了一种时间间隔机器（TIM）的模型，其中模态特定的时间间隔作为查询，输入到一个transformer编码器中。编码器会关注指定的时间间隔以及两种模态的周围上下文，以识别正在进行的动作。
其它亮点

本文在EPIC-KITCHENS，Perception Test和AVE三个长音视频数据集上测试了TIM，并报告了识别方面的最新成果。此外，本文还展示了TIM可以通过使用密集的多尺度时间间隔查询来适应动作检测，并在EPIC-KITCHENS-100上的大多数指标上优于SOTA，并在Perception Test上表现出强大的性能。
相关研究

最近的相关研究包括使用LLMs和更大的预训练的先前SOTA，以及其他使用transformer编码器的模型，如ViViT和Swin Transformer。

TIM: A Time Interval Machine for Audio-Visual Action Recognition

提问交流

提问交流