TALL: Thumbnail Layout for Deepfake Video Detection

解决问题:论文旨在解决深度伪造视频检测的问题,该问题已经引起社会和网络安全的广泛关注。目前的视频方法虽然表现良好,但计算密集度较高。该论文提出了一种名为TALL的简单而有效的策略,旨在实现空间和时间依赖性的保留。

关键思路:TALL是一种模型无关且极其简单的策略,只需修改几行代码即可。具体来说,连续的帧在每个帧中的固定位置上被遮盖以提高泛化能力,然后被调整大小为子图像并重新排列成预定义的布局作为缩略图。受到视觉Transformer的成功启发,作者将TALL集成到Swin Transformer中,形成了一种高效而有效的方法TALL-Swin。

其他亮点:该论文的实验设计充分,使用了多个数据集进行验证,并且代码已经开源。TALL-Swin在挑战性的跨数据集任务FaceForensics++ $\to$ Celeb-DF上实现了90.79$\%$的AUC,证明了其有效性和优越性。该论文的工作值得进一步深入研究。

关于作者:主要作者徐雨婷、梁健、贾耿云、杨子明、张艳浩、何然均来自中国的南京大学。他们之前的代表作不在本数据库中,无法提供。

相关研究:近期其他相关的研究包括:“DeepFake Detection Based on Attention Mechanism and Convolutional Neural Network”(作者:Xiaoyu Li、Yingxue Li、Jingbo Zhou,机构:北京航空航天大学)和“Deepfake Video Detection Using Recurrent Neural Network with Attention Mechanism”(作者:Sanghoon Lee、Jongyoon Kim,机构:韩国科学技术院)。

论文摘要:这篇论文介绍了一种名为Thumbnail Layout(TALL)的简单而有效的策略,将视频剪辑转换为预定义的布局,以实现空间和时间依赖关系的保留,从而检测Deepfake视频。具体而言,连续的帧在每个帧中的固定位置上被遮蔽以提高泛化性能,然后被调整为预定义的布局作为缩略图。TALL是与模型无关的,仅需要修改少量代码即可。受到视觉变换器成功的启发,作者将TALL融入Swin Transformer中,形成了高效而有效的方法TALL-Swin。在数据集内和数据集间的广泛实验验证了TALL和SOTA TALL-Swin的有效性和优越性。TALL-Swin在具有挑战性的跨数据集任务FaceForensics++ $\to$ Celeb-DF上实现了90.79%的AUC。代码可在https://github.com/rainy-xu/TALL4Deepfake上获得。

内容中包含的图片若涉及版权问题,请及时与我们联系删除