Disentangled Diffusion-Based 3D Human Pose Estimation with Hierarchical Spatial and Temporal Denoiser

2024年03月07日
  • 简介
    最近,基于扩散的单目三维人体姿态估计方法通过直接从二维姿势序列回归三维关节坐标,实现了最先进的性能。虽然一些方法根据人体解剖骨骼将任务分解为骨长和骨方向预测,以明确地加入更多人体先验约束,但这些方法的性能显著低于最先进的基于扩散的方法。这可以归因于人类骨骼的树状结构。直接应用解缠方法可能会放大分层误差的累积,从而通过每个层次传播。同时,以前的方法尚未充分探索分层信息。为了解决这些问题,提出了一种分离扩散的三维人体姿态估计方法,其中包括分层空间和时间去噪器,称为DDHPose。在我们的方法中:(1)我们解开三维姿势并在扩散模型的正向过程中扩散骨长和骨方向,以有效地建模人体姿势先验。提出了一个解缠损失来监督扩散模型的学习。(2)对于反向过程,我们提出了分层空间和时间去噪器(HSTDenoiser),以改进每个关节的分层建模。我们的HSTDenoiser包括两个组件:分层相关空间变换器(HRST)和分层相关时间变换器(HRTT)。HRST利用关节空间信息和父关节对每个关节的影响进行空间建模,而HRTT利用来自关节和其分层相邻关节的信息,探索关节之间的分层时间相关性。
  • 作者讲解
  • 图表
  • 解决问题
    本文提出了一种新的方法DDHPose来解决单目3D人体姿态估计中的层次化建模问题。同时,该方法也试图解决之前方法中存在的骨骼结构和层次信息的不足。
  • 关键思路
    DDHPose方法通过在扩散模型的前向过程中对骨长和骨方向进行解缠,并提出了解缠损失来监督模型学习。在反向过程中,提出了分层空间时间去噪器(HSTDenoiser)来改善每个关节的分层建模,包括分层相关空间变换器(HRST)和分层相关时间变换器(HRTT)。
  • 其它亮点
    该方法在多个数据集上进行了实验,并与其他SOTA方法进行了比较,证明了其有效性和优越性。此外,该方法提出的分层空间时间去噪器也可以应用于其他相关领域,具有一定的通用性。
  • 相关研究
    最近的相关研究包括:《Monocular 3D Human Pose Estimation in the Wild Using Improved CNN Supervision》、《3D Human Pose Estimation with Spatial and Temporal Transformers and Gated Fusion》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问