- 简介行动识别对于自我中心视频理解至关重要,可以实现自动和连续监测日常生活活动(ADL),无需用户付出努力。现有文献侧重于3D手部姿势输入,需要计算密集型的深度估计网络或佩戴不舒适的深度传感器。相比之下,尽管市场上有用户友好的智能眼镜可以捕捉单个RGB图像,但对于自我中心行动识别,对2D手部姿势的理解研究不足。我们的研究旨在通过探索2D手部姿势估计领域来填补这一研究空白,做出两个贡献。首先,我们介绍了两种新的2D手部姿势估计方法,即单手估计的EffHandNet和专为自我中心视角设计、捕捉手和物体之间交互的EffHandEgoNet。这两种方法在H2O和FPHA公共基准测试中均优于现有的最先进模型。其次,我们提出了一种基于2D手部和物体姿势的鲁棒行动识别架构。这种方法包括EffHandEgoNet和基于Transformer的行动识别方法。在H2O和FPHA数据集上评估,我们的架构具有更快的推理时间,并分别达到了91.32%和94.43%的准确率,超过了现有的最先进方法,包括基于3D的方法。我们的工作证明,使用2D骨架数据是自我中心行动理解的一种强大方法。广泛的评估和消融研究显示了手部姿势估计方法的影响,以及每个输入对整体性能的影响。
-
- 图表
- 解决问题本论文旨在探索使用2D手部姿势估计进行自我中心动作识别的方法,以解决使用3D手部姿势或深度传感器进行动作识别的计算成本高和不舒适的问题。
- 关键思路本文提出了两种新的2D手部姿势估计方法:EffHandNet用于单手估计,EffHandEgoNet用于自我中心视角,捕捉手部和物体之间的交互。同时,提出了一个基于2D手部和物体姿势的动作识别架构,包括EffHandEgoNet和基于transformer的动作识别方法。
- 其它亮点本文的两种2D手部姿势估计方法在H2O和FPHA公共基准测试中均优于现有的最先进方法。动作识别架构在H2O和FPHA数据集上均取得了比3D方法更快的推理时间和更高的准确率,分别为91.32%和94.43%。本文使用2D骨架数据是进行自我中心动作理解的一种强大方法。本文的实验设计详细,使用的数据集广泛,还提供了开源代码。
- 最近的相关研究包括基于深度学习的3D手部姿势估计和动作识别方法,如《End-to-end 3D Hand Pose Estimation and Gesture Recognition: A Review》和《A survey of egocentric action recognition》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流