日常活动,如慢跑、看书、倒水或运动,都可以看作是由人体的位置和方向组成的一连串姿态。理解图像和视频中的姿态是实现一系列应用的关键步骤,包括增强现实显示、全身手势控制身体运动量化。然而,在图像和视频中以二维捕获的三维姿态,会因相机视角的不同而不同。通过使用 2D 信息识别 3D 姿态相似度,将有助于视觉系统更好地理解世界

本文聚焦一篇发表在ECCV 2020 的论文,谷歌的研究人员提出了一种用于人体姿态感知的新算法Pr-VIPE,通过将 2D 人体姿态关键点映射到具有视角不变的嵌入空间之中,来识别不同相机视角中人体姿态的相似度。这种能力可以用于实现姿态检索、动作识别、动作视频同步等任务。与直接将 2D 姿态关键点映射到 3D 姿态关键点的现有模型相比,Pr-VIPE 嵌入向量空间的特点包括 :

  • 视角不变性,
  • 为捕获 2D 输入模糊性引入概率性,
  • 在训练或推理中无需相机参数。

经过实验室内设置数据的训练,只要有一个良好的 2D 姿态估计器(如 PersonLab、BlazePose等),模型即可开箱即用地处理自然场景中的图像。该模型很简单,嵌入向量紧凑,可以使用 15 个 CPU 进行训练(约 1 天内完成)。论文和代码已经放出,感兴趣的可以戳链接。

内容中包含的图片若涉及版权问题,请及时与我们联系删除