In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition

向作者提问

NEW

简介

行动识别对于自我中心视频理解至关重要，可以实现自动和连续监测日常生活活动（ADL），无需用户付出努力。现有文献侧重于3D手部姿势输入，需要计算密集型的深度估计网络或佩戴不舒适的深度传感器。相比之下，尽管市场上有用户友好的智能眼镜可以捕捉单个RGB图像，但对于自我中心行动识别，对2D手部姿势的理解研究不足。我们的研究旨在通过探索2D手部姿势估计领域来填补这一研究空白，做出两个贡献。首先，我们介绍了两种新的2D手部姿势估计方法，即单手估计的EffHandNet和专为自我中心视角设计、捕捉手和物体之间交互的EffHandEgoNet。这两种方法在H2O和FPHA公共基准测试中均优于现有的最先进模型。其次，我们提出了一种基于2D手部和物体姿势的鲁棒行动识别架构。这种方法包括EffHandEgoNet和基于Transformer的行动识别方法。在H2O和FPHA数据集上评估，我们的架构具有更快的推理时间，并分别达到了91.32%和94.43%的准确率，超过了现有的最先进方法，包括基于3D的方法。我们的工作证明，使用2D骨架数据是自我中心行动理解的一种强大方法。广泛的评估和消融研究显示了手部姿势估计方法的影响，以及每个输入对整体性能的影响。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探索使用2D手部姿势估计进行自我中心动作识别的方法，以解决使用3D手部姿势或深度传感器进行动作识别的计算成本高和不舒适的问题。
关键思路

本文提出了两种新的2D手部姿势估计方法：EffHandNet用于单手估计，EffHandEgoNet用于自我中心视角，捕捉手部和物体之间的交互。同时，提出了一个基于2D手部和物体姿势的动作识别架构，包括EffHandEgoNet和基于transformer的动作识别方法。
其它亮点

本文的两种2D手部姿势估计方法在H2O和FPHA公共基准测试中均优于现有的最先进方法。动作识别架构在H2O和FPHA数据集上均取得了比3D方法更快的推理时间和更高的准确率，分别为91.32％和94.43％。本文使用2D骨架数据是进行自我中心动作理解的一种强大方法。本文的实验设计详细，使用的数据集广泛，还提供了开源代码。
相关研究

最近的相关研究包括基于深度学习的3D手部姿势估计和动作识别方法，如《End-to-end 3D Hand Pose Estimation and Gesture Recognition: A Review》和《A survey of egocentric action recognition》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问