- 简介近年来,由于其在人机交互、虚拟现实和机器人技术中的广泛应用,3D手部姿态估计方法受到了极大的关注。相比之下,手部检测管道存在显著差距,这在构建有效的现实世界多手重建系统中带来了重大挑战。在这项工作中,我们提出了一种数据驱动的管道,用于有效的野外多手重建。所提出的管道由两个组件组成:实时全卷积手部定位和高保真度的基于变压器的3D手部重建模型。为了解决以前方法的局限性并构建一个强大而稳定的检测网络,我们引入了一个大规模数据集,其中包含超过200万张野外手部图像,具有不同的照明、光照和遮挡条件。我们的方法在流行的2D和3D基准测试中在效率和准确性方面均优于以前的方法。最后,我们展示了我们的管道在单眼视频中实现平滑的3D手部跟踪的有效性,而不使用任何时间组件。代码、模型和数据集可在https://rolpotamias.github.io/WiLoR上获得。
- 图表
- 解决问题本文旨在解决手部检测和重建中的挑战,构建一个有效的多手重建系统。
- 关键思路本文提出了一个数据驱动的管道,包括实时的全卷积手部定位和高保真度的基于Transformer的3D手部重建模型。
- 其它亮点本文引入了一个大规模数据集,包括超过200万张不同光照、照明和遮挡条件下的手部图像。实验结果表明,该方法在流程效率和准确性方面均优于之前的方法。此外,作者还提供了代码、模型和数据集。
- 与本文相关的研究包括:《Monocular Total Capture: Posing Face, Body, and Hands in the Wild》、《InterHand2.6M: A Dataset and Baseline for 3D Interacting Hand Pose Estimation from a Single RGB Image》等。
沙发等你来抢
去评论
评论
沙发等你来抢