SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation

2024年04月04日
  • 简介
    最近,基于Transformer的方法在人体姿态估计(HPE)方面取得了最先进的预测质量。然而,大多数表现最佳的基于Transformer的模型在边缘计算平台上部署时计算和存储需求过高。那些需要更少资源的基于Transformer的模型容易出现欠拟合问题,因此表现明显不如规模更大的模型。鉴于这一困境,我们提出了SDPose,一种新的自蒸馏方法,用于提高小型基于Transformer的模型的性能。为了缓解欠拟合问题,我们设计了一个基于多次循环前向传递的Transformer模块,称为多周期Transformer(MCT),以更充分地利用小型模型参数的潜力。此外,为了防止MCT带来的额外推理计算开销,我们引入了一种自蒸馏方案,将MCT模块的知识提取到一个简单的前向模型中。具体而言,在MSCOCO验证数据集上,SDPose-T使用4.4M参数和1.8 GFLOPs获得了69.7%的mAP。此外,SDPose-S-V2在MSCOCO验证数据集上使用6.2M参数和4.7 GFLOPs获得了73.5%的mAP,成为主要小型神经网络方法中的最新最先进技术。我们的代码可在https://github.com/MartyrPenink/SDPose上找到。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决在边缘计算平台上部署时,大多数基于Transformer的人体姿态估计模型过于计算密集和存储需求过大的问题。同时,小型Transformer模型容易出现欠拟合问题,导致性能明显低于大型模型。作者提出了SDPose方法,通过自蒸馏的方式提高小型Transformer模型的性能。
  • 关键思路
    本文的关键思路是设计了一个基于多次循环前向传播的Transformer模块(MCT),用于提高小型模型的性能,并通过自蒸馏的方式将MCT模块的知识提取到一个普通的前向模型中,以避免额外的推理计算消耗。
  • 其它亮点
    本文的亮点包括:1.提出了一个新的自蒸馏方法来提高小型Transformer模型的性能;2.设计了一个新的Transformer模块(MCT)来充分利用小型模型参数的潜力;3.在MSCOCO验证集上,SDPose-T获得了69.7%的mAP,仅使用4.4M参数和1.8 GFLOPs;4.作者提供了开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关研究,例如:1. HRNetV2:深度高分辨率网络,2. SimpleBaseline:基于卷积神经网络的人体姿态估计方法,3. CPN:用于多人姿态估计的竞争性部分网络。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问