- 简介本文提出了一种新颖的运动学和轨迹先验知识增强Transformer(KTPFormer),它克服了现有基于Transformer的3D人体姿态估计方法的弱点,即它们的自注意机制中的Q、K、V向量的导出都基于简单的线性映射。我们提出了两个先验注意力模块,即运动学先验注意力(KPA)和轨迹先验注意力(TPA),以利用人体解剖结构和运动轨迹信息,促进多头自注意中全局依赖关系和特征的有效学习。KPA通过构建运动学拓扑模型来建模人体的运动学关系,而TPA则构建轨迹拓扑来学习跨帧的关节运动轨迹信息。通过使用先验知识产生Q、K、V向量,这两个模块使KTPFormer能够同时建模空间和时间相关性。在三个基准测试(Human3.6M、MPI-INF-3DHP和HumanEva)上进行的广泛实验表明,KTPFormer相比于现有最先进的方法具有更优异的性能。更重要的是,我们的KPA和TPA模块具有轻量级的即插即用设计,并可以集成到各种基于Transformer的网络(即基于扩散的网络)中,以仅极小的计算开销提高性能。代码可在https://github.com/JihuaPeng/KTPFormer上获得。
- 图表
- 解决问题本文旨在解决3D人体姿态估计中现有基于Transformer的方法中存在的问题,即Q、K、V向量的推导都基于简单的线性映射,无法很好地利用已知的人体解剖结构和运动轨迹信息。
- 关键思路本文提出了两个先验注意力模块,即运动学先验注意力(KPA)和轨迹先验注意力(TPA),以利用人体解剖结构和运动轨迹信息,有效地学习多头自注意力中的全局依赖和特征。这两个模块使KTPFormer能够同时建模空间和时间相关性。
- 其它亮点本文的亮点包括:1.使用KPA和TPA模块来增强Transformer模型的性能;2.在三个基准测试数据集上进行了广泛的实验,证明了KTPFormer相对于现有方法的卓越性能;3.KPA和TPA模块具有轻量级的插入式设计,并且可以集成到各种基于Transformer的网络中,只需很少的计算开销即可提高性能;4.代码已经开源。
- 最近在这个领域中的相关研究包括:1. Transformer-based方法在3D人体姿态估计中的应用,如《Deep High-Resolution Representation Learning for Human Pose Estimation》;2. 利用先验知识来增强模型性能,如《Graph Convolutional Networks for Learning with Few Labeled Data》。
沙发等你来抢
去评论
评论
沙发等你来抢