SkateFormer: Skeletal-Temporal Transformer for Human Action Recognition

2024年03月14日
  • 简介
    Skeleton-based action recognition是一种基于骨骼数据中关节坐标和它们之间连接的人体动作分类方法,广泛应用于各种场景。虽然Graph Convolutional Networks (GCNs)已经被用于处理以图形表示的骨骼数据,但它们受到连接关节限制的有限感受野的影响。为了解决这个问题,最近的进展引入了基于transformer的方法。然而,捕捉所有帧中所有关节之间的相关性需要大量的内存资源。为了缓解这个问题,我们提出了一种新的方法,称为Skeletal-Temporal Transformer (SkateFormer),它根据不同类型的骨骼-时间关系(Skate-Type)对关节和帧进行分区,并在每个分区内执行骨骼-时间自注意(Skate-MSA)。我们将行动识别的关键骨骼-时间关系分为四种不同类型。这些类型结合了(i)基于物理相邻和远离关节的两种骨骼关系类型,以及(ii)基于相邻和远离帧的两种时间关系类型。通过这种分区特定的注意策略,我们的SkateFormer可以以高效的计算方式选择性地关注对于行动识别至关重要的关键关节和帧。在各种基准数据集上进行的大量实验验证了我们的SkateFormer优于最近的最先进方法。
  • 图表
  • 解决问题
    本篇论文提出了一种针对骨架数据的动作识别方法,旨在解决GCNs在联通性约束下受限的感受野问题以及transformer-based方法需要大量内存资源的问题。
  • 关键思路
    论文提出了一种名为Skeletal-Temporal Transformer(SkateFormer)的新方法,通过将骨架数据分为不同的Skeletal-Temporal关系类型(Skate-Type)并在每个分区内执行skeletal-temporal自注意力(Skate-MSA)来解决问题。
  • 其它亮点
    论文通过实验验证了SkateFormer方法的有效性,并表明其在各种基准数据集上优于最新的现有方法。论文还提出了四种不同类型的关键Skeletal-Temporal关系类型,这些类型结合了基于物理相邻和远离关节的两种骨骼关系类型和基于相邻和远离帧的两种时间关系类型。
  • 相关研究
    最近的相关研究包括:Graph Convolutional Networks(GCNs)和transformer-based方法。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论