Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM

2024年06月18日
  • 简介
    现有的视频异常检测方法在面对具有挑战性或未知事件时,往往表现出检测偏差和缺乏可解释性。为了解决这些缺点,我们提出了Holmes-VAD,这是一个新颖的框架,利用精确的时间监督和丰富的多模态指令,实现准确的异常定位和全面的解释。首先,为了构建一个无偏差和可解释的VAD系统,我们创建了第一个大规模的多模态VAD指令调整基准数据集,即VAD-Instruct50k。该数据集采用精心设计的半自动标注范例创建,对收集的未剪辑视频应用高效的单帧注释,然后使用强大的现成视频字幕生成器和大型语言模型(LLM)将其合成为异常和正常视频剪辑的高质量分析。在VAD-Instruct50k数据集的基础上,我们开发了一种定制的可解释视频异常检测解决方案。我们训练了一个轻量级的时间采样器来选择具有高异常响应的帧,并微调了一个多模态大型语言模型(LLM)来生成解释性内容。广泛的实验结果验证了所提出的Holmes-VAD的普适性和可解释性,将其确立为一种新颖的可解释技术,用于实际的视频异常分析。为了支持社区,我们的基准和模型将在https://holmesvad.github.io上公开提供。
  • 图表
  • 解决问题
    论文旨在解决视频异常检测中存在的偏见和缺乏可解释性的问题,提出了一种新的框架Holmes-VAD。
  • 关键思路
    Holmes-VAD框架利用精确的时间监督和丰富的多模态指令,实现了准确的异常定位和全面的解释,并建立了第一个大规模多模态VAD指令调整基准。
  • 其它亮点
    论文使用半自动标注范式构建了VAD-Instruct50k数据集,使用视频字幕生成器和大型语言模型(LLM)合成了高质量的异常和正常视频剪辑分析。Holmes-VAD框架使用轻量级的时间采样器选择具有高异常响应的帧,并微调多模态大型语言模型(LLM)生成解释性内容。实验结果验证了Holmes-VAD的广泛适用性和可解释性,该基准和模型将公开提供。
  • 相关研究
    最近的相关研究包括:1)基于深度学习的视频异常检测方法,如Deep-SVDD和Deep Autoencoder;2)使用多模态数据进行视频异常检测的方法,如MVTec AD和UCF-Crime。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论