从多视角估计多人三维人体姿态是一个比较challenge的研究方向,目前的方法都采用了多阶段的模式,整个框架比较复杂。最近新加坡国立大学(NUS)联合新加坡Sea AI Lab在NeurIPS-2021上发表了一篇论文『Direct Multi-view Multi-person 3D Human Pose Estimation』,提出了一个简单的方法Multi-view Pose Transformer,直接从多视角图片回归多人三维姿态结果,在CMU panoptic数据集上达到15.8mm的MPJPE,简单高效,且良好的可扩展性。

论文链接:

https://arxiv.org/pdf/2111.04076.pdf

项目链接:

https://github.com/sail-sg/mvp

视频讲解:

https://www.bilibili.com/video/BV1sL4y1v7wy/

作者受transformer启发,将每个关节点用一个可学习的input embedding建模,输入特别设计decoder结构直接回归3D关键点位置。这些embedding被称为joint query,他们可以从数据中学习从而capture到一些关键点的先验信息(prior)。作者在设计decoder时引入新的projective attention机制来进行多视角信息融合,以及特殊的group-wise matched training来学习多人关键点预测,下面详细讲解模型设计。

整个框架由多层decoder构成,基于一开始输入的joint query,每层decoder 借助projective attention来fuse多视角信息,借助self-attention来交互不同joint之间的信息,这样增强joint feature。基于增强的joint feature,可以预测offset来refine 3D 关键点位置。refine 后3d 位置又用于更准确地fuse多视角信息。这样多层的decoder就可以实现直接的关键点regression了。

Multi-view pose transformer(MvP)一个非常简单直接的框架,整个模型没有中间任务,没有像多视角2D pose匹配那样noisy的操作,也没有volumetric表征那样高计算量和容易出现quantization error的过程,完全end-to-end学习。有利于扩展到其他task,比如pose tracking,也有利于从更大规模的 pose 数据中学到更有用的信息从而实现更加准确泛化性更强的模型。

内容中包含的图片若涉及版权问题,请及时与我们联系删除