Group Pose: A Simple Baseline for End-to-End Multi-person Pose Estimation
解决问题:本篇论文研究的是多人姿态估计的端到端问题。目前的解决方案主要采用DETR-like框架,主要是通过复杂的解码器来进行姿态估计。本篇论文提出了一种简单但有效的Transformer方法,名为Group Pose。相比当前领域的研究,Group Pose的思路有所新意。
关键思路:本篇论文的关键思路是将K关键点姿态估计简单地看作是预测一组N×K关键点位置,每个位置都来自于一个关键点查询,并用一个实例查询表示每个姿态以评分N个姿态预测。在解码器的自注意力机制方面,Group Pose采用两个组内自注意力机制,分别是N个实例内的自注意力机制和K+1个相同类型实例的自注意力机制,从而消除了不同类型实例之间的交互,简化了优化,提高了性能。
其他亮点:实验使用了MS COCO和CrowdPose数据集,结果表明,Group Pose的性能优于以前使用复杂解码器的方法,甚至略优于使用人体框监督的ED-Pose方法。此外,本篇论文的代码已经在Paddle和PyTorch上开源。
关于作者:本篇论文的主要作者包括Huan Liu、Qiang Chen等人,他们来自于微软亚洲研究院、南京大学等机构。他们之前的代表作包括《Deep Sketch Hashing: Fast Free-hand Sketch-Based Image Retrieval》、《Image Super-Resolution Using Dense Skip Connections》等。
相关研究:近期的相关研究包括《Simple Baselines for Human Pose Estimation and Tracking》(Bin Xiao等,CMU)、《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》(Ke Sun等,CUHK)等。
论文摘要:本文研究了端到端多人姿态估计的问题。现有的最先进的解决方案采用DETR类似的框架,并主要开发了复杂的解码器,例如在ED-Pose中将姿态估计视为关键点框检测并与人体检测相结合,以及在PETR中使用分层预测的姿态解码器和关节(关键点)解码器。我们提出了一种简单而有效的变换器方法,称为Group Pose。我们简单地将K关键点姿态估计视为预测一组N×K关键点位置,每个位置来自关键点查询,并使用实例查询表示每个姿态以评分N个姿态预测。受到跨实例查询的交互不直接有助于的直觉启发,我们对解码器的自注意力进行了简单的修改。我们用两个后续组自我注意力替换了所有N×(K + 1)个查询的单个自我注意力:(i)N个实例内自我注意力,每个注意力都在K个关键点查询和一个实例查询上,(ii)(K + 1)个同类型跨实例自我注意力,每个注意力都在N个相同类型的查询上。由此产生的解码器消除了不同类型的跨实例查询之间的交互,简化了优化,因此提高了性能。在MS COCO和CrowdPose上的实验结果表明,我们的方法不需要人体框监督就优于具有复杂解码器的先前方法,甚至略优于使用人体框监督的ED-Pose。可用Paddle和PyTorch代码。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢