MALT: Multi-scale Action Learning Transformer for Online Action Detection

向作者提问

NEW

简介

在线行动检测（OAD）旨在实时从流视频中识别正在进行的动作，而不需要访问未来的帧。由于这些动作的粒度范围从粗到细不一，将整个动作帧集投影到单个潜在编码中可能会导致缺乏局部信息，因此需要跨多个尺度获取动作特征。在本文中，我们提出了一种多尺度动作学习变换器（MALT），其中包括一个新颖的循环解码器（用于特征融合），其参数较少且可以更有效地训练。进一步提出了一个具有多个编码分支的分层编码器，以捕获多尺度的动作特征。先前分支的输出随后被逐渐输入到后续分支中，作为交叉注意力计算的一部分。通过这种方式，输出特征从粗到细逐渐过渡，随着分支加深。我们还引入了一种明确的帧评分机制，采用稀疏注意力，更有效地过滤不相关的帧，而无需额外的网络。所提出的方法在两个基准数据集（THUMOS'14和TVSeries）上实现了最先进的性能，优于所有用于比较的现有模型，THUMOS'14的mAP为0.2％，TVSeries的mcAP为0.1％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决在线动作检测（OAD）的问题，即实时从流视频中识别正在进行的动作，而不需要访问未来的帧。同时，由于这些动作在不同的粒度尺度上表现出来，因此需要捕获多尺度的动作特征。
关键思路

文章提出了一种多尺度动作学习Transformer（MALT）的方法，其中包括一个新颖的循环解码器（用于特征融合），具有更少的参数并且可以更高效地训练。进一步提出了一个具有多个编码分支的分层编码器，以捕获多尺度的动作特征。然后，将前一分支的输出特征逐步输入到后续分支中，作为跨注意计算的一部分。通过这种方式，输出特征从粗糙到精细逐渐过渡。
其它亮点

该方法在两个基准数据集（THUMOS'14和TVSeries）上实现了最先进的性能，优于所有用于比较的现有模型，THUMOS'14的mAP为0.2％，TVseries的mcAP为0.1％。文章还介绍了一种明确的帧评分机制，采用稀疏注意力，更有效地过滤不相关的帧，而不需要额外的网络。
相关研究

在这个领域中，最近的相关研究包括：《Temporal Pyramid Network for Action Recognition》、《Online Action Detection with Proposal Selection》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问