- 简介基于外观的全脸图像输入的监督方法在最近的凝视估计任务中取得了巨大的进展。然而,密集的人工注释要求阻碍了当前方法实现工业级别的准确性和稳健性。尽管目前的无监督预训练框架在许多图像识别任务中取得了成功,但由于面部和眼睛特征之间的深度耦合,这些框架仍然不足以从全脸提取有用的凝视特征。为了缓解上述限制,本研究提出了一种新颖的无监督/自监督凝视预训练框架,通过协同特征对比和压缩模块,迫使全脸分支在没有凝视注释的情况下学习低维凝视嵌入。该框架的核心是一种交替的眼睛关注/不关注遮罩训练方案,通过注入瓶颈设计,将凝视相关信息从全脸分支中压缩到一个眼睛遮罩自编码器中,成功地鼓励模型更多地关注凝视方向而不仅仅是面部纹理,同时仍采用眼睛自重建目标。同时,还设计了一种新颖的眼睛/凝视相关信息对比损失,通过迫使模型聚焦于以眼睛为中心的区域,进一步提高了学习到的表示。在几个凝视基准测试中的广泛实验结果表明,所提出的方案在无监督领域达到了优于现有最先进方法的性能。
- 图表
- 解决问题本论文旨在提出一种新的无监督/自监督注视预训练框架,以解决现有方法在注视估计任务中需要大量人工注释的问题,同时提高模型的准确性和鲁棒性。
- 关键思路论文提出了一种交替的眼睛关注/非关注掩蔽训练方案,通过注入瓶颈设计,将注视相关信息从全脸分支中挤压到眼睛掩蔽的自编码器中,并成功鼓励模型更多地关注注视方向而不仅仅是面部纹理,同时采用眼部自重构目标。此外,论文还设计了一种新的眼睛/注视相关信息对比损失,进一步提高了学习表示的性能。
- 其它亮点论文在多个注视基准测试上进行了广泛的实验,证明了所提出的方案在无监督状态下具有优越的性能。此外,论文还公开了代码和数据集,为进一步研究提供了便利。
- 最近的相关研究包括:Self-Supervised Learning for Gaze Estimation from Videos,Gaze Embeddings for Zero-Shot Image Classification,A Dual-Source Approach to Gaze Estimation,等等。
沙发等你来抢
去评论
评论
沙发等你来抢