【OpenMMLab 社区开放麦】开播啦!!!技术下饭番追起来,每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时,也非常鼓励社区同学拿起话筒登上舞台,社区知识开放麦等你来玩~




本期精彩



人体全身姿态估计在理解和生成任务中都起着重要作用,被应用于三维全身人体网格重建,人物交互,姿态控制条件下图像生成,VR/AR 的动作捕捉等任务。



然而,人体全身姿态估计也面临着许多问题,比如:手和脸的分辨率较低;多人时的复杂匹配,特别是遮挡下以及复杂情况的手部姿势;训练数据的缺乏(尤其是手和脸部的缺乏)。


在我们部署一个 pose 模型前,对其进行轻量化是一个重要的步骤。知识蒸馏作为一个轻量化方法,其目的在于在不引入额外的推理消耗的前提下,通过传递教师模型的知识,来提升学生模型的性能。


本期开放麦,我们邀请到清华大学硕士生杨震东,他将为我们分享近期被 ICCV 2023 WorkShop 所接收的工作:

Effective Whole-body Pose Estimation with Two-stages Distillation


在这篇文章中,他们针对姿态估计提出了一个双阶段知识蒸馏方法,并使用这个方法训练得到了一系列模型,称为 DWPose



双阶段知识蒸馏主要包含第一阶段的从头训练蒸馏,以及第二阶段的微调蒸馏,两个阶段均能为学生模型带来客观的提升。此外,针对数据缺乏的问题,他们在 COCO 的基础上,联合了 Ubody 进行混合训练,其主要包含脸部和手部的训练数据,可以对 COCO 进行有效的补充。



分享内容


  • 人体全身姿态估计的重要性以及面临的问题

  • 两阶段知识蒸馏方法介绍

  • 蒸馏中的有趣现象以及 DWPose 性能

  • 更好的人体姿态,更好的生成图像



分享时间


北京时间

2023 年 8 月 24 日(周四)

20: 00 - 20: 40(分享)

20: 40 - 21: 00(Q&A)



分享嘉宾


杨震东


清华大学硕士生,研究方向包括计算机视觉和模型压缩,知识蒸馏。

个人主页:https://yzd-v.github.io/page/




内容详情


通过双阶段蒸馏,他们也发现了一些有趣的现象:


  1. 教师模型的输出作为标签监督学生模型训练,比人工标注的标签效果更好;

  2. 学生模型在蒸馏完后可以超过教师模型的表现;

  3. 在蒸馏中他们将教师模型的所有输出(即可见的点与遮挡的点)均用于蒸馏,有效提升了学生模型的表现。


DWPose 基于 RTMPose 的模型基础,在模型表现和计算消耗间取得了很好的平衡,并实现了 SOTA。



借助于 DWPose 的良好性能,他们接下来对 ControlNet 进行了适配,期望在不重新训练 ControlNet 的前提下,提升生成图片的质量。在按照 OpenPose 的规则对 DWPose 的输出进行修改和可视化后,他们完成了 OpenPose 的替换。


对于同样的输入图片,他们以更快的推理速度,得到了更好的姿态估计,也生成了更好的图片。另外值得一提的是,相比于 Openpose,DWPose 还能提供脚部的姿态估计,提供了更为全面和精准的人体全身姿态估计,这对于训练一个全新的 ControlNet_pose 模型是有很大帮助的。目前他们提供了基于 mmcv,onnxruntime 以及opencv 的推理方式,可以方便地运行在各个设备。



相关工作


Effective Whole-body Pose Estimation with Two-stages Distillation


paper:

https://arxiv.org/abs/2307.15880


code:

https://github.com/IDEA-Research/DWPose


sd-controlnet code(内含 DWPose)


https://github.com/Mikubill/sd-webui-controlnet


RTMPose:
https://github.com/open-mmlab/mmpose/tree/dev-1.x/projects/rtmpose



体验在线 Demo:

https://openxlab.org.cn/apps/detail/mmpose/RTMPose(阅读原文直达)


(识别二维码直接体验 Demo)



交流群


同时为了方便大家交流沟通,我们还建立了姿态估计的交流群,提供与大佬 1v1 的机会,添加喵喵小助手,发送关键词【姿态估计】即可入群~



两周掌握技术写作技巧,打造个人影响力!OpenMMLab写作训练营第2期开课啦

2023-08-18

用数据说话:谷歌 Bard 的多模态能力到底如何?

2023-08-17

上海人工智能实验室浦视开源体系团队 | 全球招聘

2023-08-17

内容中包含的图片若涉及版权问题,请及时与我们联系删除