- 简介我们提出了EgoPoseFormer,这是一个基于Transformer的简单而有效的模型,用于进行立体自我中心人体姿态估计。自我中心姿态估计的主要挑战是克服关节不可见性,这是由于自我遮挡或头戴相机的有限视野(FOV)引起的。我们的方法通过采用两阶段姿态估计范式来克服这一挑战:在第一阶段,我们的模型利用全局信息来估计每个关节的粗略位置,然后在第二阶段,它使用DETR风格的Transformer通过利用精细的立体视觉特征来优化粗略位置。此外,我们提出了一种可变形立体操作,以使我们的Transformer能够有效地处理多视图特征,从而使其能够准确地定位三维世界中的每个关节。我们在立体UnrealEgo数据集上评估了我们的方法,并显示它在计算效率方面显著优于以前的方法:与最先进的方法相比,仅使用7.9%的模型参数和13.1%的FLOPs,它将MPJPE提高了27.4mm(45%的提高)。令人惊讶的是,通过适当的训练技巧,我们发现即使我们的第一阶段姿态提议网络也可以实现比以前更好的性能。我们还展示了我们的方法可以无缝地扩展到单眼设置,这在SceneEgo数据集上实现了最先进的性能,在仅使用60.7%的模型参数和36.4%的FLOPs的情况下,将MPJPE提高了25.5mm(21%的提高),超过了现有最佳方法。
-
- 图表
- 解决问题EgoPoseFormer试图解决的问题是在头戴式相机的有限视野下,如何有效地进行人体姿态估计,克服关节不可见的问题。
- 关键思路EgoPoseFormer采用了两阶段的姿态估计方法,第一阶段利用全局信息估计每个关节的粗略位置,第二阶段采用DETR风格的transformer对粗略位置进行细化,同时使用可变形的立体操作来处理多视角特征,从而在3D世界中准确定位每个关节。
- 其它亮点论文在UnrealEgo和SceneEgo数据集上进行了实验评估,证明了EgoPoseFormer方法在计算效率和性能方面的优越性,与现有方法相比,EgoPoseFormer的MPJPE提高了27.4mm(45%的改进),仅使用了7.9%的模型参数和13.1%的FLOPs。此外,论文还展示了EgoPoseFormer方法如何无缝地扩展到单目设置,并在SceneEgo数据集上取得了21%的改进。
- 在这个领域中,最近的相关研究包括:DeepSDF、3D-CODED、DensePose、SMPLify-X等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流