- 简介作为长视频理解中的基本任务,时间动作检测(TAD)旨在捕捉未剪辑视频中固有的时间关系并确定具有精确边界的候选动作。多年来,已经探索了各种网络,包括卷积、图和变换器,用于有效的TAD时间建模。然而,这些模块通常同等地处理过去和未来的信息,忽视了动作边界的变化实质上是因果事件这一关键事实。受到这一观点的启发,我们提出利用动作的时间因果关系来增强TAD表示,通过限制模型仅访问过去或未来的上下文。我们引入了CausalTAD,它结合了因果关注和因果Mamba,在多个基准测试中实现了最先进的性能。值得注意的是,使用CausalTAD,我们在EPIC-Kitchens Challenge 2024的动作识别,动作检测和基于音频的交互检测轨道上排名第一,以及在Ego4D Challenge 2024的Moment Queries轨道上排名第一。我们的代码可在https://github.com/sming256/OpenTAD/causaltad上找到。
-
- 图表
- 解决问题本论文旨在解决长视频理解中的一项基本任务:时序动作检测。该任务旨在捕捉未修剪视频中固有的时间关系,并识别具有精确边界的候选动作。相比之前的方法,本文试图利用动作的时间因果关系来增强TAD表示。
- 关键思路论文的关键思路是结合因果注意力和因果Mamba,通过限制模型仅访问过去或未来的上下文,来增强TAD表示。
- 其它亮点本文在多个基准测试中实现了最先进的性能,并在EPIC-Kitchens Challenge 2024的Action Recognition、Action Detection和Audio-Based Interaction Detection赛道以及Ego4D Challenge 2024的Moment Queries赛道中排名第一。作者已经在github上开源了代码。
- 在当前领域中,已经有很多关于时序动作检测的研究。例如,'Temporal Action Detection with Structured Segment Networks'和'Temporal Action Detection with Joint Attentional and Historical Information'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流