A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction

简介

注视跟踪和社交注视预测是提供有关人类交际行为、意图和社交互动的基本任务。大多数先前的方法分别解决了这些任务，要么设计高度专业化的社交注视模型，不能推广到其他社交注视任务，要么将社交注视推断视为注视跟踪任务的临时后处理。此外，绝大多数注视跟踪方法提出的是静态模型，只能处理一个人，因此无法利用社交互动和时间动态。在本文中，我们解决了这些限制，并引入了一个新的框架，以联合预测场景中所有人的注视目标和社交注视标签。该框架包括：（i）一个基于时间的transformer架构，除了图像token外，还处理特定于每个个体的token，捕捉与每个个体相关的注视信息；（ii）一个新的数据集VSGaze，统一了多个注视跟踪和社交注视数据集的注释类型。我们展示了我们在VSGaze上训练的模型可以联合解决所有任务，并在多人注视跟踪和社交注视预测方面取得了最先进的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文试图解决如何同时预测多人的注视目标和社交注视标签的问题，同时解决当前多人注视跟踪方法只能处理单个人的问题。
关键思路

关键思路：论文提出了一种基于Transformer的框架，结合人物特定的标记来处理多人注视跟踪和社交注视预测任务，并使用新的数据集VSGaze进行训练。
其它亮点

其他亮点：论文通过实验表明，该框架在多人注视跟踪和社交注视预测任务中取得了最先进的结果。论文还提供了一个新的数据集VSGaze，可用于多个注视跟踪和社交注视数据集的注释类型统一。此外，作者还开源了代码。
相关研究

相关研究：最近在这个领域中，一些相关的研究包括：《Gaze Embeddings for Zero-Shot Image Classification》、《Social Attention: Modeling Attention in Human Crowds》、《Joint Attention in Autonomous Driving: A Survey》等。

A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction

提问交流

提问交流