【OpenMMLab 社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~
本期精彩
人体全身姿态估计在理解和生成任务中都起着重要作用,被应用于三维全身人体网格重建,人物交互,姿态控制条件下图像生成,VR/AR 的动作捕捉等任务。

然而,人体全身姿态估计也面临着许多问题,比如:手和脸的分辨率较低;多人时的复杂匹配,特别是遮挡下以及复杂情况的手部姿势;训练数据的缺乏(尤其是手和脸部的缺乏)。
在我们部署一个 pose 模型前,对其进行轻量化是一个重要的步骤。知识蒸馏作为一个轻量化方法,其目的在于在不引入额外的推理消耗的前提下,通过传递教师模型的知识,来提升学生模型的性能。
本期开放麦,我们邀请到清华大学硕士生杨震东,他将为我们分享近期被 ICCV 2023 WorkShop 所接收的工作:
Effective Whole-body Pose Estimation with Two-stages Distillation
在这篇文章中,他们针对姿态估计提出了一个双阶段知识蒸馏方法,并使用这个方法训练得到了一系列模型,称为 DWPose。

双阶段知识蒸馏主要包含第一阶段的从头训练蒸馏,以及第二阶段的微调蒸馏,两个阶段均能为学生模型带来客观的提升。此外,针对数据缺乏的问题,他们在 COCO 的基础上,联合了 Ubody 进行混合训练,其主要包含脸部和手部的训练数据,可以对 COCO 进行有效的补充。
分享内容
人体全身姿态估计的重要性以及面临的问题
两阶段知识蒸馏方法介绍
蒸馏中的有趣现象以及 DWPose 性能
更好的人体姿态,更好的生成图像
分享时间
北京时间
2023 年 8 月 24 日(周四)
20: 00 - 20: 40(分享)
20: 40 - 21: 00(Q&A)
分享嘉宾
杨震东
清华大学硕士生,研究方向包括计算机视觉和模型压缩,知识蒸馏。
个人主页:https://yzd-v.github.io/page/
内容详情
通过双阶段蒸馏,他们也发现了一些有趣的现象:
教师模型的输出作为标签监督学生模型训练,比人工标注的标签效果更好;
学生模型在蒸馏完后可以超过教师模型的表现;
在蒸馏中他们将教师模型的所有输出(即可见的点与遮挡的点)均用于蒸馏,有效提升了学生模型的表现。
DWPose 基于 RTMPose 的模型基础,在模型表现和计算消耗间取得了很好的平衡,并实现了 SOTA。

借助于 DWPose 的良好性能,他们接下来对 ControlNet 进行了适配,期望在不重新训练 ControlNet 的前提下,提升生成图片的质量。在按照 OpenPose 的规则对 DWPose 的输出进行修改和可视化后,他们完成了 OpenPose 的替换。
对于同样的输入图片,他们以更快的推理速度,得到了更好的姿态估计,也生成了更好的图片。另外值得一提的是,相比于 Openpose,DWPose 还能提供脚部的姿态估计,提供了更为全面和精准的人体全身姿态估计,这对于训练一个全新的 ControlNet_pose 模型是有很大帮助的。目前他们提供了基于 mmcv,onnxruntime 以及opencv 的推理方式,可以方便地运行在各个设备。


相关工作
Effective Whole-body Pose Estimation with Two-stages Distillation
paper:
https://arxiv.org/abs/2307.15880
code:
https://github.com/IDEA-Research/DWPose
sd-controlnet code(内含 DWPose)
https://github.com/Mikubill/sd-webui-controlnet
体验在线 Demo:
https://openxlab.org.cn/apps/detail/mmpose/RTMPose(阅读原文直达)

(识别二维码直接体验 Demo)
交流群
同时为了方便大家交流沟通,我们还建立了姿态估计的交流群,提供与大佬 1v1 的机会,添加喵喵小助手,发送关键词【姿态估计】即可入群~

2023-08-18

2023-08-17


内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢