- 简介视频异常检测(VAD)系统可以自主监测和识别干扰,减少人工成本和相关费用。然而,目前的VAD系统往往受到其对场景的表面语义理解和最少用户交互的限制。此外,现有数据集中普遍存在的数据稀缺限制了它们在开放世界场景中的适用性。本文介绍了Hawk,这是一个新颖的框架,利用交互式大型视觉语言模型(VLM)精确解释视频异常。Hawk明确区分异常和正常视频之间的运动信息差异,明确地整合运动模态以增强异常识别。为了加强运动注意力,我们在运动和视频空间内构建了一个辅助一致性损失,指导视频分支关注运动模态。此外,为了改善运动到语言的解释,我们建立了运动与其语言表示之间的明确监督关系。此外,我们还用语言描述注释了超过8,000个异常视频,使其能够在不同的开放世界场景中进行有效的训练,并创建了8,000个问答对,以回答用户的开放世界问题。最终结果表明,Hawk在视频描述生成和问答方面均取得了SOTA性能,超过了现有基线。我们的代码/数据集/演示将在https://github.com/jqtangust/hawk上发布。
- 图表
- 解决问题本论文旨在解决视频异常检测系统中存在的语义理解和数据稀缺性问题,提出了一种新的框架Hawk。
- 关键思路Hawk框架利用大型视觉语言模型(VLM)解释视频异常,显式地整合运动模态以增强异常识别,构建辅助一致性损失以引导视频分支关注运动模态,建立运动与语言表示之间的明确监督关系以提高运动到语言的解释性。
- 其它亮点论文标注了超过8000个带有语言描述的异常视频,实现了跨多种开放世界场景的有效训练,并创建了8000个问答对,展示了Hawk在视频描述生成和问答方面的SOTA表现。
- 近期相关研究包括:Anomaly Detection in Videos with Self-Supervised Learning、A Survey of Deep Learning-Based Anomaly Detection in Videos等。
沙发等你来抢
去评论
评论
沙发等你来抢