- 简介以前关于扫视路径预测的研究主要集中在群体模型上,忽略了个体的扫视路径和注意行为是多样的这一事实。忽略这些差异对于社交人机交互尤其不利,因为机器人通常基于启发式或预定义模式模拟人类注视。然而,人类注视模式是异质的,不同的行为可以显著影响这种人机交互的结果。为了填补这一空白,我们开发了一种基于深度学习的社交线索整合模型,用于预测视频中的显著性预测和扫视路径。我们的模型通过门控机制和顺序注意力递归地整合注视历史和社交线索来学习扫视路径。我们在动态社交场景的凝视数据集上评估了我们的方法,在自由观看条件下进行观察。将注视历史引入我们的模型使得可以训练一个单一的统一模型,而不是为每组扫视路径训练单独的模型的资源密集型方法。我们观察到,相对于具有类似分布的较小数据集,当在大数据集上训练模型时,晚期神经整合方法优于早期融合。结果还表明,单一的统一模型,在训练所有观察者的扫视路径时,表现与单独训练的模型相当甚至更好。我们假设这个结果是由于群体显著性表示在模型中灌输了普遍的注意力,而监督信号和注视历史则引导它学习个性化的注意行为,由于其隐含的普遍关注表示,统一模型比单独的模型具有更好的性能。
- 图表
- 解决问题本论文旨在解决个体扫视路径差异对人机交互的影响问题,提出了一种基于深度学习的社交线索整合模型,用于预测视频中的显著性区域和扫视路径。
- 关键思路论文提出了一种递归地通过门控机制和顺序注意力整合注视历史和社交线索的方法,用于学习扫视路径。将注视历史引入模型使得可以训练一个统一的模型而不是为每组扫视路径单独训练模型。
- 其它亮点论文使用了动态社交场景的凝视数据集进行了评估,并观察到晚期神经整合方法在大数据集上的训练模型中优于早期融合。同时,单一统一模型在所有观察者的扫视路径上训练时表现与单独训练模型相当甚至更好。
- 最近的相关研究包括基于深度学习的视觉显著性模型、基于社交线索的注视预测模型等。
沙发等你来抢
去评论
评论
沙发等你来抢