论文标题:End-to-End Human Pose and Mesh Reconstruction with Transformers

论文链接:https://arxiv.org/abs/2012.09760

代码链接:https://github.com/microsoft/MeshTransformer

作者单位:微软

据作者称,METRO是第一个利用Transformer编码器架构从单个输入图像中共同学习3D人体姿势和网格重建的方法,表现SOTA!优于Pose2Mesh、I2LMeshNet等网络,代码刚刚开源!

我们提出了一种称为MEsh TRansfOrmer(METRO)的新方法,可以从单个图像重建3D人体姿态和mesh。我们的方法使用Tranformer编码器对顶点-顶点和顶点-关节相互作用进行联合建模,并同时输出3D关节坐标和网格顶点。与回归姿态和形状参数的现有技术相比,METRO不依赖任何参数网格模型(例如SMPL),因此可以轻松扩展到其他对象(例如手)。我们进一步放宽了网格拓扑,并允许Transformer的自注意力机制自由地参与任意两个顶点之间的连接,从而可以了解网格顶点和关节之间的非局部关系。借助提出的蒙版顶点建模,我们的方法在处理诸如局部遮挡等挑战性情况时更加健壮和有效。 METRO在公共Human3.6M和3DPW数据集上生成了用于人类网格重建的最新技术结果。此外,我们证明了METRO在wild进行3D手重建的普遍性,其表现优于FreiHAND数据集上现有的最新方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除