- 简介视觉搜索在我们的日常生活中非常重要。高效地分配视觉注意力对于有效完成视觉搜索任务至关重要。以前的研究主要模拟了像素级别的图像空间视觉注意力分配,例如使用显著性图。然而,新兴的证据表明,视觉注意力是由对象而不是像素强度来引导的。本文介绍了一种名为对象级别注意力转换器(OAT)的模型,它可以预测人类在杂乱的干扰场景中寻找目标对象时的扫视路径。OAT采用编码器-解码器架构。编码器捕捉有关图像内对象位置和外观以及目标的信息。解码器通过整合编码器和解码器的输出特征,将注视扫描路径预测为一系列对象注视点。我们还提出了一种新的位置编码方式,更好地反映了对象之间的空间关系。我们在Amazon书籍封面数据集和我们收集的新的视觉搜索数据集上评估了OAT。与基于空间注意力的算法的预测相比,OAT预测的注视扫描路径更接近于人类注视模式,这是通过已建立的度量和一种新的基于行为的度量来衡量的。我们的结果表明了OAT的泛化能力,它可以准确地预测未见过的布局和目标对象的人类扫视路径。
- 图表
- 解决问题论文旨在解决视觉搜索中的关键问题:有效分配视觉注意力。作者发现当前的研究主要集中在像素级别对图像中的视觉注意力进行建模,而非对象级别。因此,论文提出了一种基于对象级别的注意力转换器(OAT)来预测人类在杂乱的场景中搜索目标物体时的注视路径。
- 关键思路OAT使用编码器-解码器架构,编码器捕捉图像中对象的位置和外观信息以及目标信息,解码器通过整合来自编码器和解码器的输出特征来预测注视路径。此外,论文还提出了一种更好地反映对象间空间关系的位置编码方式。
- 其它亮点论文在Amazon书籍封面数据集和新的视觉搜索数据集上进行了评估,结果表明OAT比基于空间注意力的算法更准确地预测了人类注视模式。OAT具有良好的泛化能力,可以准确预测不同布局和目标物体的注视路径。
- 最近的相关研究包括:《Visual Search at the Object Level: A Deep Convolutional Neural Network Framework》、《Object Detection and Recognition Using Deep Convolutional Neural Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢