Pose-guided multi-task video transformer for driver action recognition

向作者提问

NEW

简介

我们研究了通过分析汽车内部视频来识别分心驾驶情况的任务。为了解决这个挑战，我们引入了一种多任务视频变换器，可以预测分心行为和驾驶员姿态。利用预训练大型架构VideoMAEv2，我们的方法将人类关键点位置的语义信息纳入到动作识别中，通过最小化时空令牌的数量来减少计算开销。通过使用姿态和类别信息指导令牌选择，我们显著减少了模型的计算要求，同时保持了基线准确性。我们的模型在驾驶员动作识别方面超过了现有的最先进结果，同时与当前基于视频变换器的方法相比表现出更高的效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过分析车内视频，识别分心驾驶的情况。为了解决这个问题，论文提出了一个多任务视频转换器，可以预测分心动作和驾驶员姿势。
关键思路

论文采用了VideoMAEv2这个大型预训练架构，并利用人类关键点位置的语义信息来增强行动识别，并通过最小化空间-时间标记的数量来减少计算开销。通过使用姿势和类别信息来指导标记选择，论文显著降低了模型的计算要求，同时保持了基线准确性。相比于当前的视频转换器方法，我们的模型在驾驶员行动识别方面表现优异，同时具有更高的效率。
其它亮点

论文设计了实验来评估模型的性能，并将其与其他方法进行比较。论文还提供了数据集和代码以供研究人员使用。该模型的应用可以帮助提高驾驶安全性，值得进一步研究。
相关研究

最近的相关研究包括：'Driver Distraction Detection with Multi-Task Learning and Spatio-Temporal Transformers'和'Distracted Driver Detection Using Multi-Task Learning with In-Cabin Camera Images'。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问