Self-learning Canonical Space for Multi-view 3D Human Pose Estimation

2024年03月19日
  • 简介
    多视角三维人体姿势估计自然优于单视角估计,因为多视角图像提供了更全面的信息,包括相机位置、二维/三维人体姿势和三维几何形状。然而,这些信息的精确标注难以获得,使得从多视角图像中准确预测三维人体姿势变得具有挑战性。为了解决这个问题,我们提出了一个完全自我监督的框架,命名为级联多视角聚合网络(CMANet),用于构建一个规范化的参数空间,以全面整合和利用多视角信息。在我们的框架中,多视角信息分为两类:1)内视角信息,2)间视角信息。因此,CMANet包括两个组件:内视角模块(IRV)和间视角模块(IEV)。IRV用于提取每个视角的初始相机位置和三维人体姿势;IEV用于融合互补的姿势信息和跨视角的三维几何形状,以得到最终的三维人体姿势。为了促进内视角和间视角的聚合,我们定义了一个规范化的参数空间,由每个视角的相机位置和人体姿势和形状参数($\theta$和$\beta$)组成的SMPL模型来描述,并提出了一个两阶段的学习过程。在第一阶段,IRV学习使用一个现成的2D关键点检测器的确定输出来监督估计相机位置和视角相关的三维人体姿势。在第二阶段,IRV被冻结,IEV通过隐式编码跨视角补充和三维几何约束来进一步优化相机位置和3D人体姿势,通过联合拟合预测的多视角2D关键点来实现。通过全面的实验,我们证明了所提出的框架、模块和学习策略的有效性,并且CMANet在广泛的定量和定性分析中优于现有的最先进方法。
  • 图表
  • 解决问题
    多视角三维人体姿态估计需要准确的标注数据,但这种数据很难获得,因此本文提出了一种完全自监督的框架来综合利用多视角信息。
  • 关键思路
    本文提出了一种级联的多视角聚合网络(CMANet),通过定义规范化参数空间来综合利用多视角信息,包括相机姿态、2D/3D人体姿态和3D几何信息。CMANet由两个模块组成:intra-view模块(IRV)和inter-view模块(IEV),IRV用于提取每个视图的初始相机姿态和3D人体姿态,IEV用于综合融合姿态信息和跨视图3D几何信息以得到最终的3D人体姿态。
  • 其它亮点
    本文的实验结果表明,CMANet在广泛的定量和定性分析中优于现有的方法。本文使用了多个数据集进行实验,并开源了代码。本文提出的框架和学习策略证明是有效的,并且可以进一步改进。
  • 相关研究
    在这个领域的相关研究还包括:《Multi-View 3D Human Pose Estimation Using Camera Motion and 2D Projection》、《A Multi-View Deep Learning Approach for Human Action Recognition》、《Multi-View 3D Object Detection Network for Autonomous Driving》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论