WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild

简介

近年来，由于其在人机交互、虚拟现实和机器人技术中的广泛应用，3D手部姿态估计方法受到了极大的关注。相比之下，手部检测管道存在显著差距，这在构建有效的现实世界多手重建系统中带来了重大挑战。在这项工作中，我们提出了一种数据驱动的管道，用于有效的野外多手重建。所提出的管道由两个组件组成：实时全卷积手部定位和高保真度的基于变压器的3D手部重建模型。为了解决以前方法的局限性并构建一个强大而稳定的检测网络，我们引入了一个大规模数据集，其中包含超过200万张野外手部图像，具有不同的照明、光照和遮挡条件。我们的方法在流行的2D和3D基准测试中在效率和准确性方面均优于以前的方法。最后，我们展示了我们的管道在单眼视频中实现平滑的3D手部跟踪的有效性，而不使用任何时间组件。代码、模型和数据集可在https://rolpotamias.github.io/WiLoR上获得。
图表
解决问题

本文旨在解决手部检测和重建中的挑战，构建一个有效的多手重建系统。
关键思路

本文提出了一个数据驱动的管道，包括实时的全卷积手部定位和高保真度的基于Transformer的3D手部重建模型。
其它亮点

本文引入了一个大规模数据集，包括超过200万张不同光照、照明和遮挡条件下的手部图像。实验结果表明，该方法在流程效率和准确性方面均优于之前的方法。此外，作者还提供了代码、模型和数据集。
相关研究

与本文相关的研究包括：《Monocular Total Capture: Posing Face, Body, and Hands in the Wild》、《InterHand2.6M: A Dataset and Baseline for 3D Interacting Hand Pose Estimation from a Single RGB Image》等。

WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild

评论