- 简介在计算机视觉和图像处理领域中,视觉注意力的分析和预测一直是至关重要的任务。在实际应用中,图像通常伴随着各种文本描述,然而,很少有研究探讨文本描述对视觉注意力的影响,更不用说开发考虑文本引导的视觉显著性预测模型了。本文从主观和客观两个角度对文本引导的图像显著性(TIS)进行了全面研究。具体而言,我们构建了一个名为SJTU-TIS的TIS数据库,其中包括1200个文本-图像对和相应的眼动数据。基于建立的SJTU-TIS数据库,我们分析了各种文本描述对视觉注意力的影响。然后,为了促进考虑文本影响的显著性预测模型的开发,我们使用最先进的显著性模型构建了一个SJTU-TIS数据库的基准。最后,考虑到文本描述对视觉注意力的影响,而大多数现有的显著性模型忽略了这种影响,我们进一步提出了一种文本引导的显著性(TGSal)预测模型,该模型提取和集成了图像特征和文本特征,以预测不同文本描述条件下的图像显著性。我们提出的模型在SJTU-TIS数据库和纯图像显著性数据库上都显著优于最先进的显著性模型,各种评估指标都有所提高。SJTU-TIS数据库和所提出的TGSal模型的代码将在https://github.com/IntMeGroup/TGSal上发布。
-
- 图表
- 解决问题本文旨在研究文本对视觉注意力的影响,并提出一种考虑文本影响的图像显著性预测模型。
- 关键思路本文构建了一个包含1200个文本-图像对和相应的眼动数据的TIS数据库,并分析了不同文本描述对视觉注意力的影响。基于此数据库,本文提出了一种文本引导的显著性预测模型(TGSal),该模型结合图像特征和文本特征来预测不同文本描述条件下的图像显著性。
- 其它亮点本文的亮点包括构建了一个TIS数据库并分析了文本对视觉注意力的影响,提出了一种新的文本引导的显著性预测模型,并在多个数据集上进行了实验验证。作者还提供了开源代码和数据集。
- 在相关研究方面,最近的一些相关论文包括:'Deep Visual Attention Prediction'、'Textual-Visual Saliency Detection with Image Text Joint Inference and Attentive Fusion'、'Visual Saliency Prediction with Neural Attention Mechanism'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流