群体姿势：一种用于端到端多人姿势估计的简单基准方法

Group Pose: A Simple Baseline for End-to-End Multi-person Pose Estimation

解决问题：本篇论文研究的是多人姿态估计的端到端问题。目前的解决方案主要采用DETR-like框架，主要是通过复杂的解码器来进行姿态估计。本篇论文提出了一种简单但有效的Transformer方法，名为Group Pose。相比当前领域的研究，Group Pose的思路有所新意。

关键思路：本篇论文的关键思路是将K关键点姿态估计简单地看作是预测一组N×K关键点位置，每个位置都来自于一个关键点查询，并用一个实例查询表示每个姿态以评分N个姿态预测。在解码器的自注意力机制方面，Group Pose采用两个组内自注意力机制，分别是N个实例内的自注意力机制和K+1个相同类型实例的自注意力机制，从而消除了不同类型实例之间的交互，简化了优化，提高了性能。

其他亮点：实验使用了MS COCO和CrowdPose数据集，结果表明，Group Pose的性能优于以前使用复杂解码器的方法，甚至略优于使用人体框监督的ED-Pose方法。此外，本篇论文的代码已经在Paddle和PyTorch上开源。

关于作者：本篇论文的主要作者包括Huan Liu、Qiang Chen等人，他们来自于微软亚洲研究院、南京大学等机构。他们之前的代表作包括《Deep Sketch Hashing: Fast Free-hand Sketch-Based Image Retrieval》、《Image Super-Resolution Using Dense Skip Connections》等。

相关研究：近期的相关研究包括《Simple Baselines for Human Pose Estimation and Tracking》（Bin Xiao等，CMU）、《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》（Ke Sun等，CUHK）等。

论文摘要：本文研究了端到端多人姿态估计的问题。现有的最先进的解决方案采用DETR类似的框架，并主要开发了复杂的解码器，例如在ED-Pose中将姿态估计视为关键点框检测并与人体检测相结合，以及在PETR中使用分层预测的姿态解码器和关节（关键点）解码器。我们提出了一种简单而有效的变换器方法，称为Group Pose。我们简单地将K关键点姿态估计视为预测一组N×K关键点位置，每个位置来自关键点查询，并使用实例查询表示每个姿态以评分N个姿态预测。受到跨实例查询的交互不直接有助于的直觉启发，我们对解码器的自注意力进行了简单的修改。我们用两个后续组自我注意力替换了所有N×（K + 1）个查询的单个自我注意力：（i）N个实例内自我注意力，每个注意力都在K个关键点查询和一个实例查询上，（ii）（K + 1）个同类型跨实例自我注意力，每个注意力都在N个相同类型的查询上。由此产生的解码器消除了不同类型的跨实例查询之间的交互，简化了优化，因此提高了性能。在MS COCO和CrowdPose上的实验结果表明，我们的方法不需要人体框监督就优于具有复杂解码器的先前方法，甚至略优于使用人体框监督的ED-Pose。可用Paddle和PyTorch代码。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

群体姿势：一种用于端到端多人姿势估计的简单基准方法

评论列表

评论