What Matters in Detecting AI-Generated Videos like Sora?

简介

最近在扩散式视频生成方面的进展已经展示出了惊人的结果，但合成视频和真实世界视频之间的差距仍未被充分探索。在本研究中，我们从外观、动作和几何三个基本视角比较了真实世界视频和由最先进的AI模型Stable Video Diffusion生成的视频，以研究这种差距。为了实现这一目标，我们使用三个3D卷积网络训练了三个分类器，每个分类器针对不同的方面：外观的视觉基础模型特征、动作的光流和几何的单目深度。每个分类器在假视频检测方面表现出强大的性能，无论是定性还是定量方面。这表明，AI生成的视频仍然很容易被检测出来，真假视频之间的差距仍然存在。此外，我们利用Grad-CAM定位了AI生成视频在外观、动作和几何方面的系统性失败。最后，我们提出了一个集成外观、光流和深度信息的专家集成模型，用于检测假视频，从而提高了鲁棒性和泛化能力。我们的模型能够高精度地检测由Sora生成的视频，即使在训练过程中没有暴露任何Sora视频。这表明，真实和假视频之间的差距可以在各种视频生成模型中推广。项目页面：https://justin-crchang.github.io/3DCNNDetection.github.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文试图探究现有的AI生成视频与真实世界视频之间的差距，并提出了一种有效的方法来检测AI生成视频。
关键思路

论文使用了三种分类器，分别针对外观、运动和几何方面的特征，通过3D卷积网络对这些特征进行训练，以检测AI生成视频。此外，论文还提出了一种集成外观、光流和深度信息的专家集成模型，以提高检测的鲁棒性和泛化能力。
其它亮点

论文使用了Stable Video Diffusion模型生成的视频进行了实验，并展示了该模型在外观、运动和几何方面的系统性失败。论文还提出了一种新的方法来集成多个分类器，以提高检测的准确性。实验使用了多个数据集，并在项目页面上公开了代码。
相关研究

最近在这个领域中，还有一些相关的研究，如《Learning to Detect Fake Face Images in the Wild》、《Learning to Identify Computer Generated Portraits》等。

What Matters in Detecting AI-Generated Videos like Sora?

提问交流

提问交流