Pose-guided multi-task video transformer for driver action recognition

2024年07月18日
  • 简介
    我们研究了通过分析汽车内部视频来识别分心驾驶情况的任务。为了解决这个挑战,我们引入了一种多任务视频变换器,可以预测分心行为和驾驶员姿态。利用预训练大型架构VideoMAEv2,我们的方法将人类关键点位置的语义信息纳入到动作识别中,通过最小化时空令牌的数量来减少计算开销。通过使用姿态和类别信息指导令牌选择,我们显著减少了模型的计算要求,同时保持了基线准确性。我们的模型在驾驶员动作识别方面超过了现有的最先进结果,同时与当前基于视频变换器的方法相比表现出更高的效率。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在通过分析车内视频,识别分心驾驶的情况。为了解决这个问题,论文提出了一个多任务视频转换器,可以预测分心动作和驾驶员姿势。
  • 关键思路
    论文采用了VideoMAEv2这个大型预训练架构,并利用人类关键点位置的语义信息来增强行动识别,并通过最小化空间-时间标记的数量来减少计算开销。通过使用姿势和类别信息来指导标记选择,论文显著降低了模型的计算要求,同时保持了基线准确性。相比于当前的视频转换器方法,我们的模型在驾驶员行动识别方面表现优异,同时具有更高的效率。
  • 其它亮点
    论文设计了实验来评估模型的性能,并将其与其他方法进行比较。论文还提供了数据集和代码以供研究人员使用。该模型的应用可以帮助提高驾驶安全性,值得进一步研究。
  • 相关研究
    最近的相关研究包括:'Driver Distraction Detection with Multi-Task Learning and Spatio-Temporal Transformers'和'Distracted Driver Detection Using Multi-Task Learning with In-Cabin Camera Images'。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问