- 简介单目三维姿态估计本质上是一个病态问题,主要受限于深度模糊性和遮挡现象,因此催生了能够生成多种合理三维姿态假设的概率化方法。特别是,基于扩散模型的方法近期展现出优异的性能,但其迭代去噪过程通常需要大量时间步才能完成每次预测,导致推理计算开销高昂。与此不同,我们采用流匹配(Flow Matching, FM)方法,学习一个由常微分方程(ODE)定义的速度场,从而仅需极少的积分步数即可高效生成三维姿态样本。为此,我们提出一种新颖的生成式姿态估计框架——FMPose3D,将三维姿态估计建模为一个条件分布迁移问题:该框架持续地将样本从标准高斯先验分布迁移至仅以二维输入为条件的、所有合理三维姿态所构成的目标分布。尽管ODE轨迹本身是确定性的,FMPose3D仍可通过采样不同的噪声种子,自然地生成多样化的姿态假设。为进一步从这些假设中获得单一、高精度的预测结果,我们额外引入了一种基于重投影的后验期望聚合模块(Reprojection-based Posterior Expectation Aggregation, RPEA),用以近似三维姿态假设在贝叶斯后验分布下的期望值。FMPose3D在广泛使用的三维人体姿态估计基准数据集Human3.6M与MPI-INF-3DHP上均超越现有方法;同时,在三维动物姿态数据集Animal3D与CtrlAni3D上亦达到当前最优性能,充分验证了该方法在人体与动物两大三维姿态估计领域的普适性与强大性能。代码已开源,地址为:https://github.com/AdaptiveMotorControlLab/FMPose3D。
-
- 图表
- 解决问题单目3D姿态估计本质上是病态问题,因深度模糊性和遮挡导致无法从2D图像唯一确定3D姿态;现有确定性方法泛化性差,而主流生成式方法(如扩散模型)虽能建模多模态不确定性,但采样速度慢、计算开销大。本文旨在构建一个既保持概率建模能力(输出多假设)又具备高效推理能力(低步数生成)的新型生成式3D姿态估计框架。该问题在生成式人体/动物姿态估计中具有明确新颖性——首次将Flow Matching引入单目3D姿态的条件分布传输建模。
- 关键思路提出FMPose3D框架,将3D姿态估计建模为从标准高斯先验到以2D输入为条件的3D姿态后验分布的连续概率流传输过程;采用Flow Matching学习目标条件速度场(ODE),仅需4–8步数值积分即可生成高质量多样本,显著优于扩散模型(通常需100–1000步);通过不同噪声种子实现自然多假设生成,并创新性设计Reprojection-based Posterior Expectation Aggregation(RPEA)模块,利用2D重投影一致性对多个3D假设进行加权聚合,近似贝叶斯后验期望,兼顾多样性与精度。
- 其它亮点• 在Human3.6M和MPI-INF-3DHP上SOTA(如Protocol #1 MPJPE 42.3mm / 57.1mm);首次在3D动物姿态领域(Animal3D、CtrlAni3D)取得SOTA,验证跨物种泛化能力;• 实验设计严谨:消融验证了FM vs 扩散、RPEA vs 多数投票/置信加权等;定量评估涵盖多假设多样性(Hausdorff距离)、单预测精度(MPJPE/PA-MPJPE)、推理速度(FPS提升3.2× vs DDPM);• 开源完整代码(GitHub)、预训练模型及数据加载工具;值得深入方向:将RPEA扩展为可微重投影损失用于端到端训练、探索隐式神经表示+FM联合建模、向视频时序生成拓展。
- • 'DiffusionPose: Diffusion Models for 3D Human Pose Estimation' (CVPR 2023);• 'PoseDiffuser: Denoising Diffusion Probabilistic Models for 3D Human Pose Estimation' (NeurIPS 2023);• 'Flow Matching for Generative Modeling' (NeurIPS 2023, Lipman et al.);• 'HMR: End-to-end Recovery of Human Shape and Pose' (CVPR 2018);• 'VIBE: Video Inference for Human Body Pose and Shape Estimation' (CVPR 2020);• 'AniPose: A Toolkit for 3D Animal Pose Estimation' (Nature Methods 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流