作者:Elham Shabaninia、Hossein Nezamabadi-pour、Fatemeh Shafizadegan

推荐理由:本综述全面回顾了人体动作识别中的一个长期关注点:时间建模。

简介:在基于视觉的动作识别中,来自不同模态的时空特征用于识别活动。时间建模是动作识别的长期挑战。然而,在基于深度的方法中对运动信息进行建模的方法有限,例如预先计算的运动特征、三维 (3D) 滤波器和递归神经网络 (RNN)。最近,Transformer 在自然语言处理 (NLP) 任务中对远程依赖建模的成功引起了其他领域的极大关注;包括语音、图像和视频,完全依靠自注意力而不使用序列对齐的 RNN 或卷积。尽管 Transformer 在动作识别中的应用相对较新,但在过去几年中针对该主题提出的研究数量惊人。本文特别回顾了用于建模时间变化的深度学习方法的最新进展。它侧重于使用Transformer进行时间建模的动作识别方法,讨论其主要特征、使用的模式,并确定未来研究的机遇和挑战。

论文下载:https://arxiv.org/pdf/2302.01921.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除