Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

2024年12月12日
  • 简介
    我们研究了注视目标估计的问题,其目标是预测一个人在场景中看的位置。预测一个人的注视目标需要同时考虑人的外观和场景内容。先前的工作开发了越来越复杂的、手工设计的注视目标估计流水线,这些流水线仔细融合了来自独立场景编码器、头部编码器以及深度和姿态等辅助模型的特征。受通用特征提取器在各种视觉任务中成功应用的启发,我们提出了Gaze-LLE,这是一种新颖的变压器框架,通过利用冻结的DINOv2编码器的特征来简化注视目标估计。我们为场景提取单一的特征表示,并应用一个特定于人的位置提示,通过一个轻量级模块解码注视目标。我们在多个注视基准测试中展示了最先进的性能,并进行了广泛的分析以验证我们的设计选择。我们的代码可在以下网址获取:http://github.com/fkryan/gazelle。
  • 图表
  • 解决问题
    该论文试图解决的问题是凝视目标估计,即预测一个人在场景中注视的位置。这是一个在人机交互、行为分析等领域具有重要意义的问题,但之前的方法通常依赖于复杂的、手工设计的管道。
  • 关键思路
    论文的关键思路是通过一个名为Gaze-LLE的新颖变压器框架来简化凝视目标估计。该方法利用预训练的DINOv2编码器提取场景的特征表示,并应用特定于人的位置提示来解码凝视目标。这种方法与传统方法的主要区别在于,它不依赖于复杂的特征融合和多个辅助模型,而是通过一个轻量级模块实现高效且准确的凝视预测。
  • 其它亮点
    论文展示了其方法在多个凝视基准上的最新性能,并进行了广泛的实验分析以验证设计选择。实验设计包括对不同场景和条件下的性能评估,使用了多个标准数据集。此外,作者还提供了开源代码,便于其他研究人员复现和进一步改进。未来的研究可以探索如何将这一方法应用于更复杂的场景,如多人互动或动态环境。
  • 相关研究
    近期在凝视目标估计领域的相关研究还包括: 1. "Deep Gaze III: A Probabilistic Model for Eye Movement Prediction in Dynamic Scenes" - 该研究提出了一个概率模型来预测动态场景中的眼动。 2. "Gaze Following in Social Interactions" - 这篇论文探讨了在社交互动中跟随他人目光的行为。 3. "A Unified Approach to Joint Head Pose and Gaze Estimation" - 该研究提出了一种联合估计头部姿态和凝视目标的统一方法。 4. "Learning to Estimate Gaze from Low-Resolution Images" - 这篇论文关注从低分辨率图像中估计凝视目标的问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论