- 简介本文解决了开发鲁棒的音视频深度伪造检测模型的挑战。在实际应用中,新一代算法不断涌现,这些算法在检测方法开发期间并没有遇到。这需要方法具备泛化能力。此外,为了确保检测方法的可信度,模型能够解释视频中哪些线索表明其是伪造的是有益的。在这些考虑的推动下,我们提出了一种多流融合方法,采用一类学习作为表示级别的正则化技术。我们通过扩展和重新划分现有的FakeAVCeleb数据集来创建一个新的基准,研究了音视频深度伪造检测的泛化问题。基准包含四类伪造视频(真实音频-伪造视觉、伪造音频-伪造视觉、伪造音频-真实视觉和不同步视频)。实验结果表明,与基准模型相比,我们的方法平均提高了7.31%的检测未见攻击的能力。此外,我们提出的框架提供了可解释性,指示模型识别哪种模态为伪造。
-
- 图表
- 解决问题本文旨在解决开发一个强大的音视频深度伪造检测模型的挑战。该模型需要具有泛化能力,以应对新一代算法的不断涌现,并能够解释视频中哪些线索表明其是伪造的。
- 关键思路本文提出了一种多流融合方法,采用单类学习作为表示级别的正则化技术,以解决音视频深度伪造检测的泛化问题,并为模型提供可解释性。
- 其它亮点本文通过扩展和重新划分现有的FakeAVCeleb数据集,创建了一个新的基准测试集,包含四类伪造视频(真实音频-伪造视觉、伪造音频-伪造视觉、伪造音频-真实视觉和不同步视频)。实验结果表明,相比基线模型,我们的方法平均提高了7.31%的检测未知攻击的能力。此外,我们的框架提供了可解释性,指出模型识别出的伪造模态。
- 最近的相关研究包括:《Deepfake Video Detection Using Recurrent Neural Networks》、《Deepfake Detection Based on Inconsistent Head Poses》、《Detecting Deepfake Videos in the Wild Using Text》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流