What Matters in Detecting AI-Generated Videos like Sora?

2024年06月27日
  • 简介
    最近在扩散式视频生成方面的进展已经展示出了惊人的结果,但合成视频和真实世界视频之间的差距仍未被充分探索。在本研究中,我们从外观、动作和几何三个基本视角比较了真实世界视频和由最先进的AI模型Stable Video Diffusion生成的视频,以研究这种差距。为了实现这一目标,我们使用三个3D卷积网络训练了三个分类器,每个分类器针对不同的方面:外观的视觉基础模型特征、动作的光流和几何的单目深度。每个分类器在假视频检测方面表现出强大的性能,无论是定性还是定量方面。这表明,AI生成的视频仍然很容易被检测出来,真假视频之间的差距仍然存在。此外,我们利用Grad-CAM定位了AI生成视频在外观、动作和几何方面的系统性失败。最后,我们提出了一个集成外观、光流和深度信息的专家集成模型,用于检测假视频,从而提高了鲁棒性和泛化能力。我们的模型能够高精度地检测由Sora生成的视频,即使在训练过程中没有暴露任何Sora视频。这表明,真实和假视频之间的差距可以在各种视频生成模型中推广。项目页面:https://justin-crchang.github.io/3DCNNDetection.github.io/
  • 作者讲解
  • 图表
  • 解决问题
    本论文试图探究现有的AI生成视频与真实世界视频之间的差距,并提出了一种有效的方法来检测AI生成视频。
  • 关键思路
    论文使用了三种分类器,分别针对外观、运动和几何方面的特征,通过3D卷积网络对这些特征进行训练,以检测AI生成视频。此外,论文还提出了一种集成外观、光流和深度信息的专家集成模型,以提高检测的鲁棒性和泛化能力。
  • 其它亮点
    论文使用了Stable Video Diffusion模型生成的视频进行了实验,并展示了该模型在外观、运动和几何方面的系统性失败。论文还提出了一种新的方法来集成多个分类器,以提高检测的准确性。实验使用了多个数据集,并在项目页面上公开了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Learning to Detect Fake Face Images in the Wild》、《Learning to Identify Computer Generated Portraits》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问