Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models

2024年07月14日
  • 简介
    视频异常检测(VAD)对于安全监控和自动驾驶等应用至关重要。然而,现有的VAD方法提供的检测理由不足,阻碍了公众对于实际应用的信任。本文提出了一种基于推理框架的VAD方法。虽然大型语言模型(LLMs)已经展示了革命性的推理能力,但我们发现它们的直接使用对于VAD来说不够。具体而言,LLMs中预先训练的隐式知识聚焦于一般背景,因此可能无法适用于每个特定的实际VAD场景,导致缺乏灵活性和准确性。为了解决这个问题,我们提出了AnomalyRuler,这是一种基于规则的VAD推理框架,使用LLMs。AnomalyRuler包括两个主要阶段:归纳和演绎。在归纳阶段,LLM被提供少量正常参考样本,然后总结这些正常模式以归纳出一组检测异常的规则。演绎阶段遵循归纳出的规则来检测测试视频中的异常帧。此外,我们设计了规则聚合、感知平滑和鲁棒推理策略,进一步增强了AnomalyRuler的鲁棒性。AnomalyRuler是第一个针对单类VAD任务的推理方法,只需要少量正常样本即可适应各种VAD场景,无需进行完全训练。在四个VAD基准测试中进行的全面实验表明,AnomalyRuler具有最先进的检测性能和推理能力。
  • 图表
  • 解决问题
    解决问题:该论文旨在解决视频异常检测(VAD)方法缺乏理由解释的问题,提出了一种基于规则推理的VAD框架AnomalyRuler,旨在提高模型的灵活性和准确性。
  • 关键思路
    关键思路:AnomalyRuler框架包括归纳和演绎两个阶段。在归纳阶段,使用大型语言模型(LLMs)对正常参考样本进行学习,从而归纳出一组检测异常的规则。在演绎阶段,使用归纳出的规则来检测测试视频中的异常帧。此外,还采用了规则聚合、感知平滑和鲁棒推理等策略来进一步提高模型的鲁棒性。
  • 其它亮点
    其他亮点:AnomalyRuler是第一个针对单类VAD任务的推理方法,只需要进行少量正常样本的提示,而无需进行全量训练,从而实现对各种VAD场景的快速适应。实验结果表明,AnomalyRuler具有最先进的检测性能和推理能力。
  • 相关研究
    相关研究:最近的相关研究包括使用深度学习方法进行VAD的研究,以及基于规则的方法进行异常检测的研究。其中,与本论文最相关的研究是使用深度学习方法进行VAD的研究,如One-Class Convolutional Neural Network for Anomaly Detection in Crowded Scenes和Deep Video Anomaly Detection Based on Sparse Coding with Multi-Level Sampling等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论