SalFoM: Dynamic Saliency Prediction with Video Foundation Models

2024年04月03日
  • 简介
    最近的视频显著性预测(VSP)技术已经表现出与人类视觉系统相比具有很好的性能,而模拟人类视觉系统正是VSP的主要目标。然而,当前最先进的模型采用了在有限数据集上训练的时空转换器,限制了其泛化能力和适应下游任务的能力。视觉基础模型的优点提供了改进VSP过程的潜在解决方案。然而,将图像基础模型适应到视频领域存在着显著的挑战,需要对场景动态进行建模并捕捉时间信息。为了应对这些挑战,并作为首个基于视频基础模型设计VSP模型的尝试,我们介绍了一种新的编码器-解码器视频转换器架构SalFoM。我们的模型采用UnMasked Teacher(UMT)作为特征提取器,并提出了一种异构解码器,其中包括一个具有局部感知的时空转换器,并从多个角度整合局部和全局的时空信息,以产生最终的显著性图。我们在具有挑战性的VSP基准数据集DHF1K、Hollywood-2和UCF-Sports上进行了定性和定量实验,结果表明我们提出的模型比现有最先进的方法更为优越。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在设计一种基于视频基础模型的视频显著性预测模型,以解决当前视频显著性预测模型在泛化和适应性方面存在的问题。
  • 关键思路
    论文提出了一种新的编码器-解码器视频转换器体系结构SalFoM,它采用UnMasked Teacher(UMT)作为特征提取器,并采用异构解码器,其中包括一个局部感知的时空转换器,从各种角度集成局部和全局时空信息,以生成最终的显著性地图。
  • 其它亮点
    论文在DHF1K、Hollywood-2和UCF-Sports等具有挑战性的视频显著性预测基准数据集上进行了定量和定性实验,证明了SalFoM模型在与现有最先进方法相比的优越性。
  • 相关研究
    相关研究包括:1. 'Video Saliency Detection via Spatio-Temporal Attention Models';2. 'Spatio-Temporal Saliency Detection in Videos using Convolutional Neural Networks';3. 'Spatio-Temporal Saliency Networks for Dynamic Saliency Prediction'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问