A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection

简介

本论文提出了一种新颖的时空转换网络，引入了几个原创组件来检测未修剪视频中的动作。首先，多特征选择性语义注意力模型计算空间和动态特征之间的相关性，以适当地模拟不同动作语义之间的时空交互。其次，动态感知网络利用动态感知的二维位置编码算法，在视频帧中编码动作语义的位置。这种动态感知机制记忆了当前方法无法利用的动态时空变化。第三，基于序列的时间注意力模型捕捉动作帧中的异构时间依赖性。与自然语言处理中主要用于找到语言单词之间相似性的标准时间注意力不同，所提出的基于序列的时间注意力旨在确定视频帧之间的差异和相似性，共同定义动作的含义。该方法在四个时空动作数据集（AVA 2.2，AVA 2.1，UCF101-24和EPIC-Kitchens）上优于现有解决方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决在未裁剪视频中检测动作的问题。相较于现有方法，本论文的方法能够更好地建模不同动作语义之间的时空交互，并利用动态时空变化来编码动作位置。
关键思路

本论文的关键思路包括多特征选择语义注意力模型、动作感知网络和基于序列的时间注意力模型。这些组件能够更好地捕捉时空交互和动态变化，从而提高动作检测的准确性。
其它亮点

本论文的实验结果表明，该方法在四个时空动作数据集上的表现都优于现有方法。此外，该论文还开源了代码和数据集，为后续研究提供了便利。
相关研究

在该领域的相关研究包括：《Temporal Pyramid Network for Action Recognition》、《Action Recognition with Spatial-Temporal Discriminative Filter Banks》等。

A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection

提问交流

提问交流