作者:Zunayed Mahmud, Paul Hungler, Ali Etemad
简介:作者提出了一种新颖的多流网络,可以学习用于注视估计的稳健的视觉表示。作者首先创建一个合成数据集,其中包含使用模拟器详细描述可见眼球和虹膜的眼睛区域蒙版。然后,作者使用 U-Net 类型模型执行眼部区域分割,稍后作者将使用该模型为真实世界的眼部图像生成眼部区域掩码。接下来,作者使用自监督对比学习在真实域中预训练眼睛图像编码器,以学习广义的眼睛表示。最后,这个预训练的眼睛编码器,连同两个额外的可见眼球区域和虹膜编码器,在作者的多流框架中并行使用,以从真实世界的图像中提取用于注视估计的显着特征。作者在两种不同的评估设置中展示了作者的方法在 EYEDIAP 数据集上的性能,并获得了最先进的结果,优于该数据集上的所有现有基准。作者还进行了额外的实验,以验证作者的自监督网络相对于用于训练的不同数量的标记数据的稳健性。
论文下载:https://arxiv.org/pdf/2112.07878.pdf
注:本文被AAAI-22收录。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢