On the Utility of 3D Hand Poses for Action Recognition

2024年03月14日
  • 简介
    3D手部姿势是一种未被充分探索的行动识别模态。这些姿势信息紧凑而且信息量大,可以极大地有利于计算预算有限的应用。然而,仅凭姿势信息无法完全理解行动,因为它们无法完全捕捉人类与之交互的对象和环境。为了有效地建模手-物体交互,我们提出了一种新型的多模态转换器HandFormer。HandFormer将高时间分辨率的3D手部姿势与稀疏采样的RGB帧相结合,用于编码场景语义,从而有效地建模手-物体交互。观察到手部姿势的独特特征,我们对手部建模进行了时间分解,并通过其短期轨迹表示每个关节。这种分解的姿势表示与稀疏的RGB样本相结合非常高效,并且达到了很高的准确性。仅使用手部姿势的单模态HandFormer在5倍的FLOPs下优于现有的基于骨骼的方法。使用RGB,我们在Assembly101和H2O上实现了新的最先进性能,并在自我中心行动识别方面取得了显着的改进。
  • 图表
  • 解决问题
    论文旨在解决使用3D手部姿态进行动作识别时的不足之处,即无法完全捕捉人们与物体和环境的交互。
  • 关键思路
    论文提出了一种新颖的多模态变压器HandFormer,将高时间分辨率的3D手部姿态与稀疏采样的RGB帧相结合,以有效地建模手部与物体的交互。
  • 其它亮点
    论文的实验结果表明,仅使用手部姿态的单模态HandFormer在5倍的FLOPs下优于现有的基于骨架的方法。在使用RGB的情况下,HandFormer在Assembly101和H2O数据集上实现了新的最佳性能,并显着提高了以自我为中心的动作识别的准确性。
  • 相关研究
    在这个领域中,最近的相关研究包括:'Skeleton-based Action Recognition with Shift Graph Convolutional Network','Temporal Convolutional Networks for Action Segmentation and Detection','Attentional Pooling for Action Recognition with Hierarchical Convolutional Networks'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论