FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion Models

2024年05月08日
  • 简介
    3D 人体姿态估计(3D HPE)任务使用 2D 图像或视频来预测人类关节在 3D 空间中的坐标。尽管深度学习方法近年来取得了进展,但它们大多忽略了耦合可访问文本和人类自然可行知识的能力,错过了有价值的隐式监督来指导 3D HPE 任务。此外,以前的研究往往从整个人体的角度研究这个任务,忽略了不同身体部位隐藏的细粒度指导。为此,我们提出了一种基于扩散模型的 Fine-Grained Prompt-Driven Denoiser,用于 3D HPE,名为 FinePOSE。它由三个核心块组成,增强了扩散模型的反向过程:(1)Fine-grained Part-aware Prompt learning(FPP)块通过耦合可访问文本和人体部位的自然可行知识与可学习的提示来建立细粒度的部位感知提示以模拟隐式指导。(2)Fine-grained Prompt-pose Communication(FPC)块建立了学习的部位感知提示和姿势之间的细粒度通信,以提高去噪质量。(3)Prompt-driven Timestamp Stylization(PTS)块集成了学习的提示嵌入和与噪声水平相关的时间信息,以在每个去噪步骤中实现自适应调整。对公共单人姿态估计数据集的广泛实验表明,FinePOSE 超过了最先进的方法。我们进一步将 FinePOSE 扩展到多人姿态估计。在 EgoHumans 数据集上实现了 34.3mm 的平均 MPJPE,展示了 FinePOSE 处理复杂多人场景的潜力。代码可在 https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024 上获得。
  • 图表
  • 解决问题
    FinePOSE试图解决从2D图像或视频中预测人体关节在3D空间中坐标的问题,同时利用可访问的文本和自然可行的人体知识提供隐含监督来指导3D HPE任务,尤其是在细粒度上提供指导。
  • 关键思路
    FinePOSE提出了一种基于扩散模型的Fine-Grained Prompt-Driven Denoiser,包括三个核心模块:Fine-grained Part-aware Prompt learning (FPP) block、Fine-grained Prompt-pose Communication (FPC) block和Prompt-driven Timestamp Stylization (PTS) block。这些模块结合了可访问的文本和自然可行的人体知识,提供了细粒度的部位感知指导,以提高去噪质量。
  • 其它亮点
    FinePOSE在公共单人姿态估计数据集上的实验表明,其性能优于现有的方法。此外,FinePOSE还扩展到多人姿态估计,并在EgoHumans数据集上取得了34.3mm的平均MPJPE。FinePOSE的代码已经在Github上开源。
  • 相关研究
    在这个领域中,最近的相关研究包括:《3D人体姿态估计的最新进展》、《基于深度学习的3D人体姿态估计综述》、《基于深度学习的多人3D姿态估计:综述与未来方向》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论