On the power of data augmentation for head pose estimation

2024年07月07日
  • 简介
    在过去的十年中,深度学习在从单眼图像中预测人类头部姿势方面取得了令人印象深刻的成功。对于野外输入,研究界主要依赖于一组半合成的训练数据。本文提出了将不同类型的合成数据结合起来,以实现更好的自然图像泛化。此外,考虑使用传统的平面外旋转合成方法扩展数据量。结合一种新颖的损失函数组合和标准特征提取器的网络架构,得到了一个竞争性的模型,无论在准确性和效率上都表现出色,可以在实际实时应用中实现完整的6自由度姿态估计。
  • 图表
  • 解决问题
    本论文旨在解决在自然图像中预测人类头部姿态的问题,并验证使用不同类型的合成数据组合和传统的平面旋转合成来扩大数据量是否可以提高模型的泛化性能。
  • 关键思路
    本论文的关键思路是将不同类型的合成数据组合,使用传统的平面旋转合成来扩大数据量,并采用一种新的损失函数和网络架构,以实现更准确和高效的6自由度姿态估计。
  • 其它亮点
    实验结果表明,该方法在准确性和效率方面都具有竞争力,可以在实际实时应用中进行完整的6自由度姿态估计。论文使用了一个半合成的训练集,同时还使用了其他数据集进行实验验证。论文提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究有:'Deep Head Pose Regression From Partially Labeled Training Data','Real-time 3D Head Pose Estimation with Random Regression Forests','Robust Face Landmark Estimation Under Occlusion and Pose Variations'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论