From CNNs to Transformers in Multimodal Human Action Recognition: A Survey

2024年05月22日
  • 简介
    由于其广泛的应用,人类动作识别是计算机视觉中研究最广泛的问题之一。最近的研究表明,使用多模态数据来解决这个问题比依赖单一数据模态可以获得更优异的性能。在过去十年中,随着深度学习在视觉建模中的应用,动作识别方法主要依赖于卷积神经网络(CNNs)。然而,Transformer在视觉建模中的崛起也正在引起动作识别任务的范式转变。本文综述了这一转变,重点关注多模态人类动作识别(MHAR)。多模态计算模型的引入独特之处在于“融合”各个数据模态的特征。因此,我们特别关注MHAR方法中融合设计方面的内容。我们分析了在这方面的经典和新兴技术,并突出了CNN和Transformer构建块在整个问题中的流行趋势。特别是,我们强调了最近的设计选择,这些选择导致了更高效的MHAR模型。与现有的广泛讨论人类动作识别的综述不同,本文旨在通过确定有前途的架构和融合设计选择来推动MHAR研究的边界,以训练可行的模型。我们还从规模和评估角度展望了多模态数据集。最后,基于已经评估的文献,我们讨论了MHAR的挑战和未来发展方向。
  • 图表
  • 解决问题
    多模态人类动作识别的融合设计问题
  • 关键思路
    本文介绍了多模态人类动作识别的融合设计方案,重点探讨了基于CNN和Transformer模型的方法,并提出了一些更高效的模型设计选择。
  • 其它亮点
    本文分析了多种经典和新兴的融合设计技术,并强调了最近一些更高效的多模态人类动作识别模型的设计选择。此外,本文还提供了对多模态数据集的规模和评估视角的展望,并讨论了多模态人类动作识别面临的挑战和未来研究方向。
  • 相关研究
    与此相关的研究包括:'Two-Stream Convolutional Networks for Action Recognition in Videos'、'Temporal Segment Networks: Towards Good Practices for Deep Action Recognition'、'Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论