Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features

简介

人工智能生成内容（AIGC）的发展使得创作出非常逼真的人工智能生成视频成为可能，比如涉及Sora的视频。然而，这些模型的广泛应用引发了潜在的滥用问题，包括面部视频欺诈和版权纠纷。解决这些问题需要开发具有准确确定视频真实性能力的强大工具。主要的挑战在于数据集和神经分类器的训练。目前的数据集缺乏一个多样化和全面的真实和生成内容存储库，以进行有效的区分。在本文中，我们首先介绍了一个专门设计用于人工智能生成视频检测（GenVidDet）的广泛视频数据集。它包括超过266万个实际和生成视频实例，涵盖各种类别、每秒帧数、分辨率和长度。GenVidDet的全面性使得可以训练一个具有泛化能力的视频检测器。我们还提出了一种创新有效的方法，名为双分支3D变换器（DuB3D），用于区分真实和生成视频，并通过将运动信息与视觉外观相结合来增强其性能。DuB3D利用自适应地利用和融合原始时空数据和光流的双分支架构。我们系统地探索了影响检测性能的关键因素，实现了DuB3D的最佳配置。在GenVidDet上训练后，DuB3D可以以96.77％的准确度区分真实和生成视频内容，甚至对未见过的类型也具有很强的泛化能力。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

如何检测人工智能生成的视频的真实性？

关键思路

提出了一个新的视频数据集GenVidDet和一个基于双分支3D Transformer的视频检测器DuB3D，可以同时利用视觉和运动信息来区分真实视频和生成视频。

其它亮点

GenVidDet数据集包含了超过2.66M个真实和生成视频的实例，DuB3D可以以96.77%的准确率检测出真实和生成视频，具有强大的泛化能力。

Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features

提问交流

提问交流