STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video

简介

当前基于视频的3D人体姿态估计方法已经取得了显著的进展，但是仍然面临深度模糊的重大挑战。为了解决这个问题，本文提出了一种基于空时图形框架的3D人体姿态估计方法，将基于身体结构图形的表示与空时信息相结合。具体而言，我们开发了一种空时交叉图形（STG）注意机制，旨在学习数据中跨时间和空间的长程依赖关系，并将图形信息直接集成到各自的注意层中。此外，我们引入了双路径调制跳跃常规GCN（MHR-GCN）模块，利用调制来优化参数使用，并采用空时跳跃连接来获取高阶信息。此外，该模块独立地处理时间和空间维度，以学习它们各自的特征，同时避免相互影响。最后，我们证明我们的方法在Human3.6M和MPI-INF-3DHP数据集上实现了最先进的3D人体姿态估计性能。
图表
解决问题

该论文旨在解决视频中基于3D人体姿态估计所面临的深度模糊问题。
关键思路

论文提出了一种融合了基于身体结构图的表示和时空信息的3D人体姿态估计框架，其中包括了一个时空criss-cross图(STG)注意力机制和一个双路径调制跳跃式规则GCN(MHR-GCN)模块。
其它亮点

该方法在Human3.6M和MPI-INF-3DHP数据集上取得了最先进的性能，实验结果表明，该方法的STG注意力机制和MHR-GCN模块能够有效地学习时空信息，提高模型的性能。
相关研究

最近的相关研究包括：《Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision》、《3D Human Pose Estimation From Monocular Images With Deep Convolutional Neural Network》等。

STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video

评论