VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs

简介

最近大型多模态视频模型（Video-LMMs）的发展显著增强了我们解释和分析视频数据的能力。尽管它们具有令人印象深刻的能力，但目前的Video-LMMs并未针对异常检测任务进行评估，这对于它们在实际场景中的部署至关重要，例如识别深度伪造、篡改视频内容、交通事故和犯罪行为。本文介绍了VANE-Bench，这是一个基准测试，旨在评估Video-LMMs在检测和定位视频中的异常和不一致性方面的能力。我们的数据集包括使用现有最先进的文本到视频生成模型合成的一系列视频，涵盖了各种微妙的异常和不一致性，分为五类：不自然的变换、不自然的外观、穿过、消失和突然出现。此外，我们的基准测试还包括现有的异常检测数据集中的真实样本，重点关注与犯罪相关的不规则行为、非典型的行人行为和异常事件。任务被构建为视觉问答挑战，以衡量模型准确检测和定位视频中的异常的能力。我们在这个基准测试任务中评估了九个现有的Video-LMMs，包括开源和闭源，发现大多数模型在有效识别微妙的异常方面遇到了困难。总之，我们的研究为Video-LMMs在异常检测领域的当前能力提供了重要见解，强调了我们评估和改进这些模型以用于实际应用的工作的重要性。我们的代码和数据可在https://hananshafi.github.io/vane-benchmark/上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估现有的大型多模态视频模型在异常检测任务中的表现，以便在实际场景中应用于识别深度伪造、操纵视频内容、交通事故和犯罪。
关键思路

引入VANE-Bench基准测试，用于评估视频模型在检测和定位视频中的异常和不一致性方面的能力。该基准测试包括合成的视频和真实世界样本，通过视觉问答挑战来衡量模型的准确性。
其它亮点

论文评估了9种现有的视频模型在基准测试中的表现，并发现大多数模型在有效识别微妙异常方面遇到困难。研究提供了关于视频模型在异常检测领域中当前能力的重要见解，强调了我们评估和改进这些模型以用于实际应用的重要性。实验数据和代码可在作者的网站上获得。
相关研究

最近的相关研究包括《Deep Learning for Anomaly Detection: A Survey》、《A Survey of Deep Learning-Based Anomaly Detection》等。

VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs

提问交流

提问交流