Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs

简介

从单目视频中进行时间序列三维人体姿态估计是人类中心计算机视觉中具有挑战性的任务，因为二维到三维的抬升存在深度歧义。为了提高准确性并解决遮挡问题，惯性传感器被引入以提供补充信息。然而，将异构传感器数据整合以产生物理合理的三维人体姿态仍然具有挑战性。本文提出了一种新的框架，即实时优化与融合（RTOF），以解决这个问题。我们首先将稀疏惯性方向纳入参数化人体骨架中，以在运动学中优化三维姿态。然后，通过建立在视觉和惯性观测上的能量函数来优化姿态，以减少时间抖动。我们的框架输出平滑且生物力学合理的人体运动。全面的实验和消融研究证明了其合理性和效率。在Total Capture数据集上，与基线方法相比，姿态估计误差显著降低。
图表
解决问题

论文试图通过结合视觉和惯性传感器数据来解决单目视频中人体姿态估计的深度模糊和遮挡问题，生成平滑和生物力学合理的人体运动。
关键思路

论文提出了一个新的框架RTOF，将稀疏惯性方向与参数化人体骨骼相结合，通过能量函数优化来减少时间上的抖动和不合理的姿态。
其它亮点

论文在Total Capture数据集上进行了全面的实验，并进行了消融研究，证明了该框架的合理性和有效性。此外，论文还开源了代码。
相关研究

最近的相关研究包括：'3D人体姿态估计综述'，'基于深度学习的人体姿态估计'，'单目RGB图像中的人体姿态估计：综述和未来方向'等。

Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs

评论