Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation

2024年03月07日
  • 简介
    追求准确的三维手部姿态估计是理解自我视角下人类活动的关键。现有的大多数估计方法仍然依赖于单视图图像作为输入,导致潜在的限制,例如视野有限和深度不确定性。为了解决这些问题,添加另一个摄像头以更好地捕捉手部形状是一个实际的方向。然而,现有的多视图手部姿态估计方法存在两个主要缺点:1)需要昂贵的多视图注释进行训练。2)在测试期间,如果摄像机参数/布局与训练中使用的参数/布局不同,则模型将变得不适用。在本文中,我们提出了一种新颖的单视图到双视图自适应(S2DHand)解决方案,该方案将预训练的单视图估计器适应到双视图。与现有的多视图训练方法相比,1)我们的自适应过程是无监督的,消除了多视图注释的需要。2)此外,我们的方法可以处理具有未知摄像机参数的任意双视图对,使模型适用于各种摄像机设置。具体而言,S2DHand建立在某些立体约束条件上,包括成对的跨视图一致性和两个视图之间的变换不变性。这两个立体约束条件以互补的方式用于生成伪标签,从而实现可靠的自适应。评估结果表明,S2DHand在任意摄像机对的情况下,在数据集内和跨数据集设置下都取得了显着的改进,并且表现优于现有的自适应方法。项目页面:https://github.com/MickeyLLG/S2DHand。
  • 图表
  • 解决问题
    解决问题:本文旨在通过添加另一个摄像机来解决现有多视角手部姿态估计方法存在的问题,即需要昂贵的多视角注释训练,以及在测试期间,如果相机参数/布局与训练中使用的不同,则模型变得不适用。
  • 关键思路
    关键思路:本文提出了一种新颖的单视图姿态估计器到双视图的自适应解决方案(S2DHand)。该方法基于某些立体约束,包括成对的跨视图一致性和变换不变性,这些约束以互补的方式用于生成伪标签,从而允许可靠的自适应。
  • 其它亮点
    其他亮点:本文提出的方法不需要多视角注释,可以处理具有未知相机参数的任意双视图对,使模型适用于不同的相机设置。实验结果表明,S2DHand在任意相机对下均取得了显着的改进,在数据集内和跨数据集设置下表现优异。此外,作者还开源了代码。
  • 相关研究
    相关研究:最近的相关研究包括《Crossing Nets: Combining GANs and VAEs with a Shared Latent Space for Hand Pose Estimation》、《3D Hand Shape and Pose Estimation from a Single RGB Image》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论