Text Prompt with Normality Guidance for Weakly Supervised Video Anomaly Detection

2024年04月12日
  • 简介
    弱监督视频异常检测(WSVAD)是一项具有挑战性的任务。目前,基于弱标签生成细粒度伪标签,然后进行自我训练分类器是一种有前途的解决方案。然而,由于现有方法仅使用RGB视觉模态,忽略了类别文本信息的利用,从而限制了更准确的伪标签的生成,影响了自我训练的性能。受基于事件描述的手动标注过程的启发,本文提出了一种基于文本提示和正常性引导(TPWNG)的伪标签生成和自我训练框架,用于WSVAD。我们的想法是利用对比语言-图像预训练(CLIP)模型的丰富语言-视觉知识,将视频事件描述文本与相应的视频帧对齐以生成伪标签。具体而言,我们首先通过设计两个排名损失和一个分布不一致性损失,对CLIP进行领域自适应微调。此外,我们提出了一个可学习的文本提示机制,辅以正常性视觉提示,进一步提高视频事件描述文本和视频帧的匹配精度。然后,我们设计了一个基于正常性引导的伪标签生成模块,以推断可靠的帧级伪标签。最后,我们引入了一个时态自适应学习模块,以更加灵活准确地学习不同视频事件的时态依赖关系。广泛的实验表明,我们的方法在两个基准数据集UCF-Crime和XD-Viole上实现了最先进的性能。
  • 图表
  • 解决问题
    本论文旨在解决弱监督视频异常检测(WSVAD)的问题,其中现有方法只使用RGB视觉模态,忽略了类别文本信息,限制了伪标签的生成和自我训练的性能。
  • 关键思路
    本文提出了一种基于文本提示和正常性引导(TPWNG)的伪标签生成和自我训练框架,通过对比语言-图像预训练(CLIP)模型的丰富语言-视觉知识来对齐视频事件描述文本和相应的视频帧以生成伪标签。
  • 其它亮点
    本文首先通过设计两个排名损失和一个分布不一致性损失来对CLIP进行领域自适应微调,然后提出了一个可学习的文本提示机制,以及一个正常性视觉提示来进一步提高视频事件描述文本和视频帧之间的匹配精度。然后,本文设计了一个基于正常性引导的伪标签生成模块,以推断可靠的帧级伪标签。最后,本文引入了一个时间上下文自适应学习模块,以更灵活、准确地学习不同视频事件之间的时间依赖关系。实验表明,本文方法在UCF-Crime和XD-Viole两个基准数据集上均取得了最先进的性能。
  • 相关研究
    最近的相关研究包括:1.《Weakly Supervised Video Anomaly Detection via Contrastive Frame Prediction》;2.《Spatio-Temporal Graph Convolutional Networks for Anomaly Detection in Videos》;3.《Abnormal Event Detection in Videos using Spatiotemporal Autoencoder》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论