- 简介在线行动检测(OAD)旨在实时从流视频中识别正在进行的动作,而不需要访问未来的帧。由于这些动作的粒度范围从粗到细不一,将整个动作帧集投影到单个潜在编码中可能会导致缺乏局部信息,因此需要跨多个尺度获取动作特征。在本文中,我们提出了一种多尺度动作学习变换器(MALT),其中包括一个新颖的循环解码器(用于特征融合),其参数较少且可以更有效地训练。进一步提出了一个具有多个编码分支的分层编码器,以捕获多尺度的动作特征。先前分支的输出随后被逐渐输入到后续分支中,作为交叉注意力计算的一部分。通过这种方式,输出特征从粗到细逐渐过渡,随着分支加深。我们还引入了一种明确的帧评分机制,采用稀疏注意力,更有效地过滤不相关的帧,而无需额外的网络。所提出的方法在两个基准数据集(THUMOS'14和TVSeries)上实现了最先进的性能,优于所有用于比较的现有模型,THUMOS'14的mAP为0.2%,TVSeries的mcAP为0.1%。
-
- 图表
- 解决问题本文旨在解决在线动作检测(OAD)的问题,即实时从流视频中识别正在进行的动作,而不需要访问未来的帧。同时,由于这些动作在不同的粒度尺度上表现出来,因此需要捕获多尺度的动作特征。
- 关键思路文章提出了一种多尺度动作学习Transformer(MALT)的方法,其中包括一个新颖的循环解码器(用于特征融合),具有更少的参数并且可以更高效地训练。进一步提出了一个具有多个编码分支的分层编码器,以捕获多尺度的动作特征。然后,将前一分支的输出特征逐步输入到后续分支中,作为跨注意计算的一部分。通过这种方式,输出特征从粗糙到精细逐渐过渡。
- 其它亮点该方法在两个基准数据集(THUMOS'14和TVSeries)上实现了最先进的性能,优于所有用于比较的现有模型,THUMOS'14的mAP为0.2%,TVseries的mcAP为0.1%。文章还介绍了一种明确的帧评分机制,采用稀疏注意力,更有效地过滤不相关的帧,而不需要额外的网络。
- 在这个领域中,最近的相关研究包括:《Temporal Pyramid Network for Action Recognition》、《Online Action Detection with Proposal Selection》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流