- 简介预测相机空间手部网格从单个RGB图像中是实现三维虚拟和增强现实中逼真手部交互的关键。以往的研究通常将任务分为两个阶段:给定手部的裁剪图像,预测相对坐标中的网格,然后在单独的、独立的阶段将这些预测提升到相机空间,这通常导致有价值的上下文和尺度信息的丢失。为了防止这些提示的丢失,我们提出将这两个阶段统一为一个端到端的解决方案,解决二维到三维对应问题。该解决方案通过一个新的可微分全局定位模块,使相机空间输出回传到网络的其余部分。我们还引入了一步图像矫正,使训练数据集和输入图像像使用同一相机获取的一样,有助于减轻问题固有的尺度深度歧义。我们通过对三个公共基准测试中的几个基线和最先进方法进行评估,验证了我们框架的有效性。
- 图表
- 解决问题该论文的问题是如何从单个RGB图像中预测相机空间手部网格,以实现在虚拟和增强现实世界中逼真的手部交互。
- 关键思路该论文提出了一种端到端的解决方案,将两个阶段合并为一个,通过一个新的可微分全局定位模块实现从相机空间输出到网络的反向传播。此外,论文还引入了图像矫正步骤,以缓解问题中固有的尺度深度模糊。
- 其它亮点该论文的亮点包括:端到端的解决方案,新的可微分全局定位模块,图像矫正步骤。论文进行了实验验证,并在三个公共基准测试中与多个基线和最先进的方法进行了比较。论文使用了多个数据集,并提供了开源代码。
- 最近的相关研究包括:《End-to-end hand mesh recovery from a monocular RGB image》、《DeepPrior++: Improving Fast and Accurate 3D Hand Pose Estimation》等。
沙发等你来抢
去评论
评论
沙发等你来抢