SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation

向作者提问

NEW

简介

最近，基于Transformer的方法在人体姿态估计（HPE）方面取得了最先进的预测质量。然而，大多数表现最佳的基于Transformer的模型在边缘计算平台上部署时计算和存储需求过高。那些需要更少资源的基于Transformer的模型容易出现欠拟合问题，因此表现明显不如规模更大的模型。鉴于这一困境，我们提出了SDPose，一种新的自蒸馏方法，用于提高小型基于Transformer的模型的性能。为了缓解欠拟合问题，我们设计了一个基于多次循环前向传递的Transformer模块，称为多周期Transformer（MCT），以更充分地利用小型模型参数的潜力。此外，为了防止MCT带来的额外推理计算开销，我们引入了一种自蒸馏方案，将MCT模块的知识提取到一个简单的前向模型中。具体而言，在MSCOCO验证数据集上，SDPose-T使用4.4M参数和1.8 GFLOPs获得了69.7％的mAP。此外，SDPose-S-V2在MSCOCO验证数据集上使用6.2M参数和4.7 GFLOPs获得了73.5％的mAP，成为主要小型神经网络方法中的最新最先进技术。我们的代码可在https://github.com/MartyrPenink/SDPose上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决在边缘计算平台上部署时，大多数基于Transformer的人体姿态估计模型过于计算密集和存储需求过大的问题。同时，小型Transformer模型容易出现欠拟合问题，导致性能明显低于大型模型。作者提出了SDPose方法，通过自蒸馏的方式提高小型Transformer模型的性能。
关键思路

本文的关键思路是设计了一个基于多次循环前向传播的Transformer模块（MCT），用于提高小型模型的性能，并通过自蒸馏的方式将MCT模块的知识提取到一个普通的前向模型中，以避免额外的推理计算消耗。
其它亮点

本文的亮点包括：1.提出了一个新的自蒸馏方法来提高小型Transformer模型的性能；2.设计了一个新的Transformer模块（MCT）来充分利用小型模型参数的潜力；3.在MSCOCO验证集上，SDPose-T获得了69.7%的mAP，仅使用4.4M参数和1.8 GFLOPs；4.作者提供了开源代码。
相关研究

最近在这个领域中，还有一些相关研究，例如：1. HRNetV2：深度高分辨率网络，2. SimpleBaseline：基于卷积神经网络的人体姿态估计方法，3. CPN：用于多人姿态估计的竞争性部分网络。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问