What Do You See in Vehicle? Comprehensive Vision Solution for In-Vehicle Gaze Estimation

向作者提问

NEW

简介

司机的目光注视包含了智能汽车所需的丰富认知和意图提示。尽管其重要性不言而喻，但由于缺乏真实驾驶情境下全面且详尽的数据集，车内目光估计的研究仍然受到限制。本文提出了三个新颖的元素，以推进车内目光研究。首先，我们介绍了IVGaze，这是一个开创性的数据集，记录了125个受试者的车内目光，涵盖了车内大量的目光和头部姿势。传统的目光采集系统不适用于车内使用。在这个数据集中，我们提出了一种新的基于视觉的车内目光采集解决方案，引入了一种精细的目标校准方法来解决注释挑战。其次，我们的研究重点是利用IVGaze进行车内目光估计。车内面部图像往往分辨率较低，因此我们引入了一个目光金字塔变换器，利用基于变换器的多级特征集成。在此基础上，我们引入了双流目光金字塔变换器（GazeDPTR）。采用透视变换，我们旋转虚拟相机以规范化图像，利用相机姿态合并规范化和原始图像，以实现准确的目光估计。GazeDPTR在IVGaze数据集上表现出了最先进的性能。第三，我们通过扩展GazeDPTR，探索了一种新的目光区域分类策略。我们定义了一个基础三平面，并将目光投影到这些平面上。利用投影点的位置特征和图像的视觉属性，我们实现了比仅依赖视觉特征更优秀的性能，证明了目光估计的优势。我们的项目可在https://yihua.zone/work/ivgaze上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决汽车内部注视估计的研究受限的问题，主要是由于缺乏全面和良好注释的真实驾驶场景数据集。该论文提出了IVGaze数据集、GazeDPTR模型和三角区分类策略，以推进汽车内部注视研究。
关键思路

该论文的关键思路是提出了一种新的视觉方法来解决汽车内部注视的挑战，并且引入了GazeDPTR模型和三角区分类策略来进一步提高注视估计的准确性。
其它亮点

该论文的亮点包括：1.提出了IVGaze数据集，用于收集真实驾驶场景下的注视数据；2.提出了GazeDPTR模型，通过透视变换来旋转虚拟摄像机以规范化图像，从而提高注视估计的准确性；3.引入了三角区分类策略，通过将注视点投影到三个平面上来提高注视区域分类的准确性。该项目代码已经开源，可以在作者的网站上找到。
相关研究

在这个领域中，还有一些相关的研究，例如：1.《Gaze Estimation in the Car: A Review》；2.《A large-scale dataset for gaze estimation in driving scenarios》；3.《Gaze Estimation for Automotive Applications Using Convolutional Neural Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问