TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression

简介

本文研究了归一化坐标表达式在基于查询的行为检测器中作为依赖手工制作组件的关键因素。尽管目标检测领域已经取得了重大进展，实现TAD的全端到端建模，基于查询的检测器仍然存在限制。为了解决这个问题，我们提出了一个名为\modelname{}的全端到端的时间行为检测变压器，它集成了时间对齐的坐标表达式。我们重新定义坐标表达式，利用实际时间线值，确保了在极其多样化的视频持续时间环境中的长度不变表示。此外，我们提出的自适应查询选择根据视频长度动态调整查询数量，相比于固定查询集提供了适当的解决方案。我们的方法不仅通过消除手工制作组件简化了TAD过程，而且显著提高了基于查询的检测器的性能。我们的TE-TAD在流行的基准数据集上优于先前的基于查询的检测器，并取得了与最先进方法相媲美的性能。代码可在此处获得：https://github.com/Dotori-HJ/TE-TAD。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决查询式检测器在时间动作检测中无法实现完全端到端建模的问题，提出了一种全面的端到端时间动作检测Transformer模型。
关键思路

本文的关键思路是利用时间对齐的坐标表达式，重新制定坐标表达式，并利用实际时间线值来保证长度不变的表示，同时提出了自适应查询选择，根据视频长度动态调整查询数量，从而消除了手工组件的需求，并显著提高了查询式检测器的性能。
其它亮点

本文的亮点包括使用了自适应查询选择，消除了手工组件的需求，显著提高了查询式检测器的性能，还在流行的基准数据集上取得了有竞争力的性能。代码已经开源。
相关研究

最近的相关研究包括《Temporal Action Detection with Structured Segment Networks》、《Temporal Action Detection with Joint Dictionary Learning》等。

TE-TAD: Towards Full End-to-End Temporal Action Detection via Time-Aligned Coordinate Expression

提问交流

提问交流