Grab-3D: Detecting AI-Generated Videos from 3D Geometric Temporal Consistency

向作者提问

NEW

简介

近年来，基于扩散的生成技术取得了显著进展，使得人工智能模型能够生成高度逼真的视频，这进一步凸显了对可靠检测机制的迫切需求。然而，现有的检测方法对生成视频中蕴含的三维几何模式探索仍十分有限。本文采用消失点作为三维几何模式的显式表征，揭示了真实视频与人工智能生成视频在几何一致性方面存在的根本性差异。我们提出了Grab-3D，一种基于三维几何时序一致性的、具备几何感知能力的Transformer框架，用于检测AI生成的视频。为实现可靠的评估，我们构建了一个包含静态场景的AI生成视频数据集，以支持稳定的三维几何特征提取。我们设计了一种几何感知Transformer，其配备了几何位置编码、时空-几何注意力机制，以及基于指数移动平均（EMA）的几何分类头，从而将三维几何信息显式地融入到时序建模过程中。实验结果表明，Grab-3D显著优于当前最先进的检测器，并在面对未见过的生成模型时展现出强大的跨域泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

随着扩散模型在生成高度逼真的AI视频方面取得显著进展，伪造视频的检测变得愈发困难。现有检测方法大多关注纹理、帧间伪影或频域特征，但对视频中3D几何结构的一致性探索不足。本文旨在解决如何有效检测AI生成视频的问题，特别聚焦于识别其在三维空间几何（如透视结构）上的不一致性。这是一个相对较新的方向，尤其在利用显式3D几何线索进行检测方面尚未被充分探索。
关键思路

论文提出Grab-3D，一种基于几何感知的Transformer框架，利用消失点（vanishing points）作为3D几何结构的显式表示，来揭示真实视频与AI生成视频在几何一致性上的根本差异。关键创新在于将3D几何信息注入时序建模：通过几何位置编码、时序-几何注意力机制以及基于指数移动平均（EMA）的几何分类头，使模型能够学习并判断视频在时间维度上是否保持合理的透视结构演变。相比以往仅依赖像素或浅层特征的方法，该思路首次系统性地引入显式的3D几何先验用于检测任务。
其它亮点

1. 构建了一个专用于静态场景的AI生成视频数据集，确保可稳定提取3D几何特征，填补了该领域高质量评估数据的空白；2. 实验表明Grab-3D在多个主流生成器（如Sora、Pika等）上显著优于现有SOTA检测器，并展现出强跨域泛化能力；3. 模型设计模块清晰，几何感知机制可解释性强；4. 论文未明确提及代码是否已开源，但所提方法为后续研究提供了新范式，未来可扩展至动态场景、多视角视频检测以及与其他模态（如深度估计）融合的方向。
相关研究

1. 'Seeing is Not Believing: Detecting Deepfake Videos via Inconsistent Geometric Structures', CVPR 2023 2. 'Temporal Inconsistency Modeling for Deepfake Video Detection', NeurIPS 2022 3. 'DefakeHop: A Light-weight High-performance Deepfake Detector based on Hierarchical Representations', ICASSP 2023 4. 'Frequency-Aware Temporal Modeling for Deepfake Video Detection', CVPR 2024 5. 'On the Biases of Generative Models: Analyzing Spatial and Temporal Artifacts in Diffusion-based Video Synthesis', arXiv 2024

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问