- 简介视觉注意力建模对于解释和优先处理视觉刺激在营销、多媒体和机器人等应用中起着重要作用。传统的显著性预测模型,特别是基于卷积神经网络(CNN)或变压器的模型,通过利用大规模注释数据集取得了显著的成功。然而,使用变压器的当前最先进模型在计算上昂贵。此外,通常需要为每种图像类型使用单独的模型,缺乏统一的方法。本文提出了一种新颖的方法,即通过Mamba实现显著性统一(SUM),该方法将Mamba的高效长程依赖建模与U-Net相结合,为不同类型的图像提供统一的模型。通过一种新颖的条件视觉状态空间(C-VSS)块,SUM可以动态适应各种图像类型,包括自然场景、网页和商业图像,确保在不同数据类型之间具有普适性。我们在五个基准测试中对SUM进行了全面评估,结果表明SUM能够无缝适应不同的视觉特征,并始终优于现有模型。这些结果将SUM定位为一种多功能和强大的工具,用于推进视觉注意力建模,提供了一种在不同类型的视觉内容之间通用适用的强大解决方案。
- 图表
- 解决问题论文旨在解决视觉注意力建模中存在的问题,如当前基于卷积神经网络或Transformer的经典显著性预测模型计算成本高、需要为每种图像类型单独训练模型等。同时,论文也试图提供一种适用于各种图像类型的统一模型。
- 关键思路论文提出了一种新的方法SUM,将Mamba的高效长程依赖建模与U-Net相结合,以提供适用于各种图像类型的统一模型。通过引入条件视觉状态空间(C-VSS)块,SUM可以动态适应不同的图像类型,包括自然场景、网页和商业图像等,从而确保其在不同数据类型之间的通用适用性。
- 其它亮点论文的实验结果表明,SUM可以无缝地适应不同的视觉特征,并始终优于现有模型。此外,论文还使用了五个基准测试数据集进行全面评估,并展示了SUM的统一性和灵活性。值得注意的是,SUM的设计和实现也具有一定的工程价值,可以为实际应用提供支持。
- 在最近的相关研究中,也有一些关于视觉注意力建模的工作,如《SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks》、《Deep Visual Attention Prediction》等。
沙发等你来抢
去评论
评论
沙发等你来抢