RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation

2023年12月12日
  • 简介
    本文介绍了RTMO,这是一个一阶段姿势估计框架,通过在YOLO架构中使用双1-D热图表示关键点,无缝地集成了坐标分类,实现了与自顶向下方法相当的精度,同时保持高速。我们提出了一种动态坐标分类器和一个量身定制的损失函数,用于热图学习,专门设计用于解决坐标分类和密集预测模型之间的不兼容性。RTMO优于最先进的一阶段姿势估计器,在COCO上实现了1.1%更高的AP,同时使用相同的骨干网速度提高了约9倍。我们的最大模型RTMO-l在COCO val2017上达到了74.8%的AP,在单个V100 GPU上达到了141 FPS,展示了其效率和准确性。代码和模型可在https://github.com/open-mmlab/mmpose/tree/dev-1.x/projects/rtmo上获得。
  • 作者讲解·1
  • 图表
  • 解决问题
    实时多人姿态估计需要在速度和精度之间平衡,现有的一阶段方法往往无法同时提供高精度和实时性能。
  • 关键思路
    RTMO是一种一阶段姿态估计框架,它通过在YOLO架构中使用双1-D热图表示关键点来无缝集成坐标分类,实现与顶部向下方法可比的精度,同时保持高速度。RTMO提出了一个动态坐标分类器和一个量身定制的损失函数,专门设计用于解决坐标分类和密集预测模型之间的不兼容性。
  • 其它亮点
    RTMO在COCO数据集上的表现优于现有的一阶段姿态估计器,达到了74.8%的AP,而在相同的骨干网络下运行约9倍快。RTMO-l模型在单个V100 GPU上实现了141 FPS的效率和准确性。该论文提供了开源代码和模型。
  • 相关研究
    与本论文相关的研究包括:Top-Down方法和其他一阶段姿态估计器,如HRNet和HigherHRNet等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问