- 简介单目人体姿态估计(HPE)旨在从摄像机拍摄的单个2D图像中确定人类关节的3D位置。然而,图像中的单个2D点可能对应于3D空间中的多个点。通常,使用正交或弱透视相机模型来近似2D-3D关系的唯一性。在本研究中,我们主张利用完整的透视相机模型,而不是依赖于近似方法。这涉及估计相机参数并建立精确、明确的2D-3D关系。为此,我们引入了EPOCH框架,包括两个主要组件:姿势提升网络(LiftNet)和姿势回归网络(RegNet)。LiftNet利用完整的透视相机模型以无监督的方式精确估计3D姿势。它以2D姿势和相机参数作为输入,并产生相应的3D姿势估计。这些输入来自RegNet,它从单个图像开始,并提供2D姿势和相机参数的估计。RegNet仅利用2D姿势数据作为弱监督。在内部,RegNet预测3D姿势,然后使用估计的相机参数将其投影到2D中。这个过程使RegNet能够建立明确的2D-3D关系。我们的实验表明,将提升建模为一项带有相机的无监督任务,可以更好地推广到未见过的数据。我们在Human3.6M和MPI-INF-3DHP数据集上获得了3D HPE的最新成果。我们的代码可在以下链接中找到:[Github链接,见补充材料]。
- 图表
- 解决问题研究单目人体姿态估计问题,通过利用全透视相机模型建立精确的二维-三维关系,解决当前估计过程中二维-三维关系不唯一的问题
- 关键思路提出EPOCH框架,包括姿态提升网络(LiftNet)和姿态回归网络(RegNet),其中LiftNet利用全透视相机模型精确估计三维姿态,RegNet通过利用二维姿态数据作为弱监督,预测三维姿态并通过估计的相机参数将其投影到二维,建立唯一的二维-三维关系
- 其它亮点实验结果表明,利用相机模型进行无监督学习的姿态提升网络能够更好地泛化到未见过的数据。在Human3.6M和MPI-INF-3DHP数据集上取得了最先进的结果。代码已在Github上开源。
- 最近的相关研究包括:《Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision》、《Monocular 3D Human Pose Estimation by Generation and Ordinal Ranking》等。
沙发等你来抢
去评论
评论
沙发等你来抢