ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos

简介

在计算机视觉中，视频中的人类行为或活动识别是一项基本任务，具有监视和监控、自动驾驶汽车、体育分析、人机交互等应用。传统的监督方法需要大量的注释数据集进行训练，获取这些数据集是昂贵且耗时的。本文提出了一种新的方法，使用交叉架构伪标记和对比学习进行半监督动作识别。我们的框架利用标记和未标记的数据来稳健地学习视频中的动作表示，将伪标记与对比学习相结合，有效地从这两种样本中学习。我们引入了一种新的交叉架构方法，其中利用了三维卷积神经网络（3D CNN）和视频变形器（VIT）来捕捉动作表示的不同方面，因此我们称之为ActNetFormer。3D CNN在捕捉时域中的空间特征和局部依赖方面表现出色，而VIT在捕捉跨帧的长程依赖方面表现出色。通过在ActNetFormer框架内集成这些互补的架构，我们的方法可以有效地捕捉动作的局部和全局上下文信息。这种全面的表示学习使模型能够利用这些架构的优势，在半监督动作识别任务中实现更好的性能。在标准动作识别数据集上的实验结果表明，我们的方法比现有方法表现更好，只需少量标记数据即可实现最先进的性能。本研究的官方网站可在以下网址找到：https://github.com/rana2149/ActNetFormer。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决半监督动作识别中需要大量标注数据的问题。
关键思路

通过结合伪标签和对比学习的交叉架构伪标签学习，提出了一种半监督动作识别的框架ActNetFormer，利用3D卷积神经网络和视频Transformer来捕捉动作表示中的不同方面，从而获得更全面的表示学习。
其它亮点

实验结果表明，该方法在标注数据较少的情况下能够达到与当前最先进方法相当的性能。研究还开源了代码和数据集。
相关研究

最近的相关研究包括：Self-Supervised Learning for Action Recognition，Unsupervised Learning of Action Classes with Continuous Temporal Embedding，Semi-Supervised Learning for Action Recognition with Temporal Contrastive Learning。

ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos

提问交流

提问交流