WorldPose: A World Cup Dataset for Global 3D Human Pose Estimation

2025年01月06日
  • 简介
    我们推出了WorldPose,这是一个全新的数据集,旨在推动多人全球姿态估计领域的研究进展,其特色内容来自2022年国际足联世界杯的视频素材。以往的数据集主要集中在局部姿态上,通常仅限于单个人或受限于室内环境,而此次体育赛事的基础设施使得我们能够获取多个固定和移动摄像头在不同体育场的视角。我们利用高清摄像头的静态多视图设置,以前所未有的精度恢复了超过1.75英亩捕捉区域内的3D球员姿态和动作。然后,我们利用捕捉到的球员动作和场地标记来校准一个移动的广播摄像机。最终生成的数据集包含超过80个序列,约250万个3D姿态,总行进距离超过120公里。随后,我们对现有的全球姿态估计最先进方法进行了深入分析。实验表明,WorldPose对现有的多人姿态估计技术提出了挑战,支持了该领域及其他领域(如体育分析)的新研究潜力。所有姿态注释(以SMPL格式)、广播摄像机参数和视频素材都将用于学术研究目的发布。
  • 图表
  • 解决问题
    该论文试图解决多人全球姿态估计在复杂、非受限环境中的挑战,特别是针对大规模户外场景。这是一个相对新颖的问题领域,因为之前的大多数研究都集中在单人或室内环境中。
  • 关键思路
    关键思路是利用2022年FIFA世界杯的多视角高清摄像头系统来捕捉和重建大规模场地(超过1.75英亩)上的3D球员姿态和运动。通过结合静态多视角设置与动态广播摄像机校准,研究人员能够以高精度恢复3D姿态,并创建一个包含250万3D姿态的大规模数据集WorldPose。相比现有研究,此方法不仅扩展了场景规模,还提升了姿态估计的准确性。
  • 其它亮点
    论文的亮点包括:1) 创建了迄今为止最大规模的多人全球姿态估计数据集WorldPose;2) 提出了利用多视角摄像头系统进行3D姿态重建的新方法;3) 数据集涵盖了超过80个序列,总行程超过120公里;4) 所有姿态注释、广播摄像机参数及视频素材都将公开发布以支持学术研究;5) 对当前最先进的全球姿态估计方法进行了深入分析,揭示了现有技术的局限性并指出了未来的研究方向。
  • 相关研究
    近年来,在多人姿态估计领域,已有不少相关研究。例如,《Panoptic Studio: A Massively Multiview System for Social Interaction Research》探讨了使用多视角系统进行社交互动研究的可能性;《3D Pose Estimation in the Wild Using Multi-View Geometry and Deep Learning》则结合了几何学与深度学习来改进户外环境下的3D姿态估计。此外,《MVPL: Multi-View Pose Lift from Monocular Images via Adversarial Training》提出了一种基于对抗训练的单目图像到多视角姿态提升的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论