- 简介3D手部姿势是一种未被充分探索的行动识别模态。这些姿势信息紧凑而且信息量大,可以极大地有利于计算预算有限的应用。然而,仅凭姿势信息无法完全理解行动,因为它们无法完全捕捉人类与之交互的对象和环境。为了有效地建模手-物体交互,我们提出了一种新型的多模态转换器HandFormer。HandFormer将高时间分辨率的3D手部姿势与稀疏采样的RGB帧相结合,用于编码场景语义,从而有效地建模手-物体交互。观察到手部姿势的独特特征,我们对手部建模进行了时间分解,并通过其短期轨迹表示每个关节。这种分解的姿势表示与稀疏的RGB样本相结合非常高效,并且达到了很高的准确性。仅使用手部姿势的单模态HandFormer在5倍的FLOPs下优于现有的基于骨骼的方法。使用RGB,我们在Assembly101和H2O上实现了新的最先进性能,并在自我中心行动识别方面取得了显着的改进。
- 图表
- 解决问题论文旨在解决使用3D手部姿态进行动作识别时的不足之处,即无法完全捕捉人们与物体和环境的交互。
- 关键思路论文提出了一种新颖的多模态变压器HandFormer,将高时间分辨率的3D手部姿态与稀疏采样的RGB帧相结合,以有效地建模手部与物体的交互。
- 其它亮点论文的实验结果表明,仅使用手部姿态的单模态HandFormer在5倍的FLOPs下优于现有的基于骨架的方法。在使用RGB的情况下,HandFormer在Assembly101和H2O数据集上实现了新的最佳性能,并显着提高了以自我为中心的动作识别的准确性。
- 在这个领域中,最近的相关研究包括:'Skeleton-based Action Recognition with Shift Graph Convolutional Network','Temporal Convolutional Networks for Action Segmentation and Detection','Attentional Pooling for Action Recognition with Hierarchical Convolutional Networks'等。
沙发等你来抢
去评论
评论
沙发等你来抢