Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection

向作者提问

NEW

简介

视频异常检测（VAD）是智能视频监控系统中的关键技术，旨在识别特定上下文和时间范围内的异常情况。虽然最近基于深度学习的VAD模型通过生成高分辨率帧展现出了良好的结果，但它们通常缺乏保持视频帧中详细的空间和时间连贯性的能力。为了解决这个问题，我们提出了一种自监督学习方法用于VAD，通过一个补丁间关系预测任务。具体而言，我们引入了一个双分支视觉变换器网络，旨在捕获视频帧的深度视觉特征，分别处理模拟外观和运动模式的空间和时间维度。每个维度中的补丁间关系被分解为补丁间的相似性和每个补丁的顺序信息。为了减少内存消耗，我们将顺序信息预测任务转化为多标签学习问题，将补丁间相似性预测任务转化为距离矩阵回归问题。综合实验表明，我们的方法非常有效，显著优于基于像素生成的方法，并超越了其他自监督学习方法，在三个公共基准测试中表现出色。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视频异常检测中深度学习模型在保持视频帧的空间和时间一致性方面的不足。
关键思路

本论文提出了一种自监督学习方法，通过解决补丁间关系预测任务来实现VAD。该方法采用了一个双分支视觉变换器网络，旨在捕捉视频帧的深度视觉特征，同时解决模拟外观和运动模式的空间和时间维度。
其它亮点

本论文的实验结果表明，该方法在三个公共基准测试中的表现优于基于像素生成的方法，并且优于其他自监督学习方法。此外，为了减少内存消耗，本论文将补丁间关系分为补丁间相似性和每个补丁的顺序信息，并将顺序信息预测任务转换为多标签学习问题，将补丁间相似性预测任务转换为距离矩阵回归问题。
相关研究

最近的相关研究包括：1. 《Deep Learning for Anomaly Detection in Surveillance Videos: A Survey》；2. 《Unsupervised Anomaly Detection with Generative Adversarial Networks to Guide Marker Discovery》；3. 《Learning Temporal Coherence via Self-Supervision for GAN-based Video Generation》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问