全身关键点检测 SOTA 模型 DWPose：更好的人体姿态，更好的生成图像

【OpenMMLab 社区开放麦】开播啦！！！技术下饭番追起来，每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时，也非常鼓励社区同学拿起话筒登上舞台，社区知识开放麦等你来玩~

本期精彩

人体全身姿态估计在理解和生成任务中都起着重要作用，被应用于三维全身人体网格重建，人物交互，姿态控制条件下图像生成，VR/AR 的动作捕捉等任务。

然而，人体全身姿态估计也面临着许多问题，比如：手和脸的分辨率较低；多人时的复杂匹配，特别是遮挡下以及复杂情况的手部姿势；训练数据的缺乏（尤其是手和脸部的缺乏）。

在我们部署一个 pose 模型前，对其进行轻量化是一个重要的步骤。知识蒸馏作为一个轻量化方法，其目的在于在不引入额外的推理消耗的前提下，通过传递教师模型的知识，来提升学生模型的性能。

本期开放麦，我们邀请到清华大学硕士生杨震东，他将为我们分享近期被 ICCV 2023 WorkShop 所接收的工作：

Effective Whole-body Pose Estimation with Two-stages Distillation

在这篇文章中，他们针对姿态估计提出了一个双阶段知识蒸馏方法，并使用这个方法训练得到了一系列模型，称为 DWPose。

双阶段知识蒸馏主要包含第一阶段的从头训练蒸馏，以及第二阶段的微调蒸馏，两个阶段均能为学生模型带来客观的提升。此外，针对数据缺乏的问题，他们在 COCO 的基础上，联合了 Ubody 进行混合训练，其主要包含脸部和手部的训练数据，可以对 COCO 进行有效的补充。

分享内容

人体全身姿态估计的重要性以及面临的问题
两阶段知识蒸馏方法介绍
蒸馏中的有趣现象以及 DWPose 性能
更好的人体姿态，更好的生成图像

分享时间

北京时间

2023 年 8 月 24 日（周四）

20: 00 - 20: 40（分享）

20: 40 - 21: 00（Q&A）

分享嘉宾

杨震东

清华大学硕士生，研究方向包括计算机视觉和模型压缩，知识蒸馏。

个人主页：https://yzd-v.github.io/page/

内容详情

通过双阶段蒸馏，他们也发现了一些有趣的现象：

教师模型的输出作为标签监督学生模型训练，比人工标注的标签效果更好；
学生模型在蒸馏完后可以超过教师模型的表现；
在蒸馏中他们将教师模型的所有输出（即可见的点与遮挡的点）均用于蒸馏，有效提升了学生模型的表现。

DWPose 基于 RTMPose 的模型基础，在模型表现和计算消耗间取得了很好的平衡，并实现了 SOTA。

借助于 DWPose 的良好性能，他们接下来对 ControlNet 进行了适配，期望在不重新训练 ControlNet 的前提下，提升生成图片的质量。在按照 OpenPose 的规则对 DWPose 的输出进行修改和可视化后，他们完成了 OpenPose 的替换。

对于同样的输入图片，他们以更快的推理速度，得到了更好的姿态估计，也生成了更好的图片。另外值得一提的是，相比于 Openpose，DWPose 还能提供脚部的姿态估计，提供了更为全面和精准的人体全身姿态估计，这对于训练一个全新的 ControlNet_pose 模型是有很大帮助的。目前他们提供了基于 mmcv，onnxruntime 以及opencv 的推理方式，可以方便地运行在各个设备。