本文分享 ICCV 2021 oral 论文『A Hybrid Video Anomaly Detection Framework via Memory-Augmented Flow Reconstruction and Flow-Guided Frame Prediction』,由华工&京东&中大联合设计重构+预测方法,双管齐下提升视频异常检测性能。

  • 论文链接:https://arxiv.org/abs/2108.06852

  • 项目链接:https://github.com/LiUzHiAn/hf2vad

视频异常检测(Video Anomaly Detection,VAD)是一项具有开放特征且具有挑战性的任务,因为异常事件通常要比正常事件发生的少,但是在实际场景中,异常事件的类型是不可预知的。现有针对视频异常检测任务的方法大多以自动编码器为基干模型,这类方法往往使用同一场景中所有的正常事件训练自动编码器,在模型测试阶段,对于异常事件,模型会给出较大的重构误差,以该误差作为标准来判断当前输入是否包含异常事件。

本文方法也是遵循以上设定,在普通自动编码器的基础上进行改进,加入了一系列的记忆模块来对正常事件进行建模,同时整合帧预测任务和光流重建任务。本文的一个亮点是,以重构的光流作为条件,设计了一个条件变分自动编码器(Conditional Variational Autoencoder,CVAE),用来捕获视频帧与光流场之间的相关性,并以此相关性来影响帧预测的质量。当模型遇到异常事件时,光流重建带来的误差会进一步影响帧预测的效果,使异常事件更易于检测。

下图为本文整体的框架图,整体框架主要由两部分构成:多级记忆增强自动编码器和条件变分自动编码器,整个框架只使用正常数据进行训练,在测试阶段,根据重构得到的光流和预测得到的帧计算误差来判断异常情况。

本文在三个具有代表性的视频异常数据集上进行了实验,分别是UCSD Ped2,CUHK Avenue和ShanghaiTech。该方法分别与现有基于重构的方法,基于预测的方法和二者混合的方法进行对比,达到SOTA效果。实验表明,所提出的方法优于单独使用重构和预测任务的方法。此外,本文的集成策略也经过精心设计,通过先对光流场进行重构,再将视频帧和光流作为输入来预测未来的帧,可以增大异常事件的预测误差。

内容中包含的图片若涉及版权问题,请及时与我们联系删除