STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video

2024年07月14日
  • 简介
    当前基于视频的3D人体姿态估计方法已经取得了显著的进展,但是仍然面临深度模糊的重大挑战。为了解决这个问题,本文提出了一种基于空时图形框架的3D人体姿态估计方法,将基于身体结构图形的表示与空时信息相结合。具体而言,我们开发了一种空时交叉图形(STG)注意机制,旨在学习数据中跨时间和空间的长程依赖关系,并将图形信息直接集成到各自的注意层中。此外,我们引入了双路径调制跳跃常规GCN(MHR-GCN)模块,利用调制来优化参数使用,并采用空时跳跃连接来获取高阶信息。此外,该模块独立地处理时间和空间维度,以学习它们各自的特征,同时避免相互影响。最后,我们证明我们的方法在Human3.6M和MPI-INF-3DHP数据集上实现了最先进的3D人体姿态估计性能。
  • 图表
  • 解决问题
    该论文旨在解决视频中基于3D人体姿态估计所面临的深度模糊问题。
  • 关键思路
    论文提出了一种融合了基于身体结构图的表示和时空信息的3D人体姿态估计框架,其中包括了一个时空criss-cross图(STG)注意力机制和一个双路径调制跳跃式规则GCN(MHR-GCN)模块。
  • 其它亮点
    该方法在Human3.6M和MPI-INF-3DHP数据集上取得了最先进的性能,实验结果表明,该方法的STG注意力机制和MHR-GCN模块能够有效地学习时空信息,提高模型的性能。
  • 相关研究
    最近的相关研究包括:《Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision》、《3D Human Pose Estimation From Monocular Images With Deep Convolutional Neural Network》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论