- 简介我们研究了通过分析汽车内部视频来识别分心驾驶情况的任务。为了解决这个挑战,我们引入了一种多任务视频变换器,可以预测分心行为和驾驶员姿态。利用预训练大型架构VideoMAEv2,我们的方法将人类关键点位置的语义信息纳入到动作识别中,通过最小化时空令牌的数量来减少计算开销。通过使用姿态和类别信息指导令牌选择,我们显著减少了模型的计算要求,同时保持了基线准确性。我们的模型在驾驶员动作识别方面超过了现有的最先进结果,同时与当前基于视频变换器的方法相比表现出更高的效率。
-
- 图表
- 解决问题论文旨在通过分析车内视频,识别分心驾驶的情况。为了解决这个问题,论文提出了一个多任务视频转换器,可以预测分心动作和驾驶员姿势。
- 关键思路论文采用了VideoMAEv2这个大型预训练架构,并利用人类关键点位置的语义信息来增强行动识别,并通过最小化空间-时间标记的数量来减少计算开销。通过使用姿势和类别信息来指导标记选择,论文显著降低了模型的计算要求,同时保持了基线准确性。相比于当前的视频转换器方法,我们的模型在驾驶员行动识别方面表现优异,同时具有更高的效率。
- 其它亮点论文设计了实验来评估模型的性能,并将其与其他方法进行比较。论文还提供了数据集和代码以供研究人员使用。该模型的应用可以帮助提高驾驶安全性,值得进一步研究。
- 最近的相关研究包括:'Driver Distraction Detection with Multi-Task Learning and Spatio-Temporal Transformers'和'Distracted Driver Detection Using Multi-Task Learning with In-Cabin Camera Images'。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流