Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos

2024年04月11日
  • 简介
    Skeleton Action Recognition(SAR)是通过识别骨骼关节坐标和它们之间的连接来识别人类动作的过程。虽然普通的Transformer已经尝试用于这个任务,但由于缺乏结构先验知识,它们仍然无法与当前领先的基于图卷积网络(GCN)的方法相比。最近,一种新颖的选择性状态空间模型Mamba作为Transformer中注意机制的一个有力替代方案出现了,它提供了对长序列的高效建模。在这项工作中,我们尽最大的努力,提出了第一个将Mamba纳入其中的SAR框架。我们模型的每个基本块采用了一种新颖的U-ShiftGCN架构,其中Mamba是其核心组件。U-ShiftGCN的编码器部分被设计为使用下采样的Shift S-GCN块从骨骼数据中提取空间特征。这些空间特征然后通过中间的Mamba块进行时间建模,然后进入编码器部分,其中包括上采样的Shift S-GCN块。此外,在每个基本块退出之前,还使用Shift T-GCN(ShiftTCN)时间建模单元来优化时间表示。这种特定的下采样空间、中间时间、上采样空间和最终时间子单元的集成为骨架动作识别带来了有希望的结果。我们将得到的模型称为Simba,在三个著名的基准骨架动作识别数据集(NTU RGB+D、NTU RGB+D 120和Northwestern-UCLA)中取得了最先进的性能。有趣的是,仅仅使用U-ShiftGCN(没有中间的Mamba块)就能够表现得相当不错,超过了我们的基线。
  • 图表
  • 解决问题
    本论文旨在解决骨架动作识别中缺乏结构先验的问题,并提出了一种基于Mamba的新型骨架动作识别框架Simba。
  • 关键思路
    Simba使用U-ShiftGCN架构,其中每个基本块都采用Mamba作为其核心组件,通过下采样Shift S-GCN块提取骨架数据的空间特征,然后通过Mamba块进行中间时间建模,最后通过上采样Shift S-GCN块进行编码器部分,使用Shift T-GCN(ShiftTCN)进行时间建模。
  • 其它亮点
    Simba在三个著名的骨架动作识别基准数据集(NTU RGB + D、NTU RGB + D 120和Northwestern-UCLA)上实现了最先进的性能。该论文的亮点包括使用Mamba模块进行时间建模,U-ShiftGCN的架构设计,以及Simba的高性能表现。
  • 相关研究
    与本论文相关的研究包括基于GCN的骨架动作识别方法,以及使用Transformer的骨架动作识别方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论