伊朗克尔曼高级技术研究生大学、沙希德·巴霍纳尔大学等 | Transformers in Action Recognition: A Review on Temporal Modeling（动作识别中的Transformer：时间建模的综述）

作者：Elham Shabaninia、Hossein Nezamabadi-pour、Fatemeh Shafizadegan

推荐理由：本综述全面回顾了人体动作识别中的一个长期关注点：时间建模。

简介：在基于视觉的动作识别中，来自不同模态的时空特征用于识别活动。时间建模是动作识别的长期挑战。然而，在基于深度的方法中对运动信息进行建模的方法有限，例如预先计算的运动特征、三维 (3D) 滤波器和递归神经网络 (RNN)。最近，Transformer 在自然语言处理 (NLP) 任务中对远程依赖建模的成功引起了其他领域的极大关注；包括语音、图像和视频，完全依靠自注意力而不使用序列对齐的 RNN 或卷积。尽管 Transformer 在动作识别中的应用相对较新，但在过去几年中针对该主题提出的研究数量惊人。本文特别回顾了用于建模时间变化的深度学习方法的最新进展。它侧重于使用Transformer进行时间建模的动作识别方法，讨论其主要特征、使用的模式，并确定未来研究的机遇和挑战。

论文下载：https://arxiv.org/pdf/2302.01921.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

伊朗克尔曼高级技术研究生大学、沙希德·巴霍纳尔大学等 | Transformers in Action Recognition: A Review on Temporal Modeling（动作识别中的Transformer：时间建模的综述）

评论列表

评论