- 简介目前基于智能手机的眼动追踪算法存在一个重要的限制,即当应用于视频类型的视觉刺激时,它们的准确性很低,因为它们通常是在静态图像上进行训练的。此外,对于智能手机上的游戏、VR和AR等实时交互应用的不断增加的需求,需要克服由于资源限制(如有限的计算能力、电池寿命和网络带宽)所带来的限制。因此,我们开发了两种新的智能手机眼动追踪技术,通过将卷积神经网络(CNN)与两种不同的循环神经网络(RNN)即长短时记忆(LSTM)和门控循环单元(GRU)相结合,来应对视频类型的视觉刺激。我们的CNN+LSTM和CNN+GRU模型的平均均方根误差分别为0.955cm和1.091cm。为了解决智能手机的计算限制,我们开发了一种边缘智能架构,以提高基于智能手机的眼动追踪的性能。我们应用各种优化方法,如量化和剪枝,来优化深度学习模型,以在边缘设备上实现更好的能源、CPU和内存使用,重点关注实时处理。通过模型量化,CNN+LSTM和CNN+GRU模型在边缘设备上的模型推理时间分别减少了21.72%和19.50%。
-
- 图表
- 解决问题本论文旨在解决当前智能手机眼动追踪算法在处理视频类型视觉刺激时精度较低的问题,并提出一种结合卷积神经网络和循环神经网络的眼动追踪方法。同时,针对智能手机的资源限制,提出了边缘智能架构来提高智能手机眼动追踪的性能。
- 关键思路本论文提出了结合CNN和LSTM/GRU的眼动追踪模型,并通过量化和修剪等优化方法,提高了模型在边缘设备上的能效和实时性。
- 其它亮点本文的CNN+LSTM和CNN+GRU模型在视频类型视觉刺激下的平均均方根误差分别为0.955cm和1.091cm。通过模型量化,CNN+LSTM和CNN+GRU模型在边缘设备上的推理时间分别减少了21.72%和19.50%。本文的实验使用了公开数据集,并提供了开源代码。
- 近期相关研究包括:“Real-time eye tracking on mobile devices with deep learning”和“Eye tracking on mobile devices: A review of recent advances in computer vision-based approaches”等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流