A Novel Framework for Multi-Person Temporal Gaze Following and Social Gaze Prediction

2024年03月15日
  • 简介
    注视跟踪和社交注视预测是提供有关人类交际行为、意图和社交互动的基本任务。大多数先前的方法分别解决了这些任务,要么设计高度专业化的社交注视模型,不能推广到其他社交注视任务,要么将社交注视推断视为注视跟踪任务的临时后处理。此外,绝大多数注视跟踪方法提出的是静态模型,只能处理一个人,因此无法利用社交互动和时间动态。在本文中,我们解决了这些限制,并引入了一个新的框架,以联合预测场景中所有人的注视目标和社交注视标签。该框架包括:(i)一个基于时间的transformer架构,除了图像token外,还处理特定于每个个体的token,捕捉与每个个体相关的注视信息;(ii)一个新的数据集VSGaze,统一了多个注视跟踪和社交注视数据集的注释类型。我们展示了我们在VSGaze上训练的模型可以联合解决所有任务,并在多人注视跟踪和社交注视预测方面取得了最先进的结果。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文试图解决如何同时预测多人的注视目标和社交注视标签的问题,同时解决当前多人注视跟踪方法只能处理单个人的问题。
  • 关键思路
    关键思路:论文提出了一种基于Transformer的框架,结合人物特定的标记来处理多人注视跟踪和社交注视预测任务,并使用新的数据集VSGaze进行训练。
  • 其它亮点
    其他亮点:论文通过实验表明,该框架在多人注视跟踪和社交注视预测任务中取得了最先进的结果。论文还提供了一个新的数据集VSGaze,可用于多个注视跟踪和社交注视数据集的注释类型统一。此外,作者还开源了代码。
  • 相关研究
    相关研究:最近在这个领域中,一些相关的研究包括:《Gaze Embeddings for Zero-Shot Image Classification》、《Social Attention: Modeling Attention in Human Crowds》、《Joint Attention in Autonomous Driving: A Survey》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问