Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation

2024年03月07日
  • 简介
    追求准确的三维手部姿态估计是理解以自我为中心视角的人类活动的关键。现有的大多数估计方法仍然依赖于单视图图像作为输入,可能存在潜在的限制,例如视野有限和深度模糊。为了解决这些问题,添加另一个相机以更好地捕捉手部形状是一个实用的方向。然而,现有的多视图手部姿态估计方法存在两个主要缺点:1)需要昂贵的多视图注释进行训练。2)在测试期间,如果相机参数/布局与训练中使用的参数/布局不同,模型将无法应用。在本文中,我们提出了一种新颖的单视图到双视图自适应(S2DHand)解决方案,该方案将预训练的单视图估计器适应到双视图。与现有的多视图训练方法相比,我们的自适应过程是无监督的,消除了多视图注释的需要。此外,我们的方法可以处理具有未知相机参数的任意双视图对,使模型适用于不同的相机设置。具体而言,S2DHand建立在特定的立体约束之上,包括成对跨视图一致性和两个视图之间的变换不变性。这两个立体约束以互补的方式用于生成伪标签,从而实现可靠的自适应。评估结果表明,S2DHand在任意相机对的数据集内和跨数据集设置下都取得了显着的改进,并且优于现有的自适应方法。项目页面:https://github.com/MickeyLLG/S2DHand。
  • 图表
  • 解决问题
    解决问题:论文提出单视角手部姿态估计的局限性,提出一种无需多视角标注的单视角到双视角的自适应方法。
  • 关键思路
    关键思路:利用双目视觉约束,包括视角间的一致性和变换的不变性,生成伪标签进行自适应。相比现有的多视角训练方法,该方法无需多视角标注,且可以处理任意双视角对。
  • 其它亮点
    其他亮点:论文提出的S2DHand方法在多个数据集和不同摄像头设置下都取得了优异的表现,且优于现有的自适应方法。论文提供了开源代码。
  • 相关研究
    相关研究:最近的相关研究包括基于深度学习的手部姿态估计方法,以及利用多视角信息的手部姿态估计方法,例如《CrossInfoNet: Multi-Task Information Sharing Based Hand Pose Estimation》和《MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论