A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection

向作者提问

NEW

简介

本文解决了开发鲁棒的音视频深度伪造检测模型的挑战。在实际应用中，新一代算法不断涌现，这些算法在检测方法开发期间并没有遇到。这需要方法具备泛化能力。此外，为了确保检测方法的可信度，模型能够解释视频中哪些线索表明其是伪造的是有益的。在这些考虑的推动下，我们提出了一种多流融合方法，采用一类学习作为表示级别的正则化技术。我们通过扩展和重新划分现有的FakeAVCeleb数据集来创建一个新的基准，研究了音视频深度伪造检测的泛化问题。基准包含四类伪造视频（真实音频-伪造视觉、伪造音频-伪造视觉、伪造音频-真实视觉和不同步视频）。实验结果表明，与基准模型相比，我们的方法平均提高了7.31％的检测未见攻击的能力。此外，我们提出的框架提供了可解释性，指示模型识别哪种模态为伪造。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决开发一个强大的音视频深度伪造检测模型的挑战。该模型需要具有泛化能力，以应对新一代算法的不断涌现，并能够解释视频中哪些线索表明其是伪造的。
关键思路

本文提出了一种多流融合方法，采用单类学习作为表示级别的正则化技术，以解决音视频深度伪造检测的泛化问题，并为模型提供可解释性。
其它亮点

本文通过扩展和重新划分现有的FakeAVCeleb数据集，创建了一个新的基准测试集，包含四类伪造视频（真实音频-伪造视觉、伪造音频-伪造视觉、伪造音频-真实视觉和不同步视频）。实验结果表明，相比基线模型，我们的方法平均提高了7.31%的检测未知攻击的能力。此外，我们的框架提供了可解释性，指出模型识别出的伪造模态。
相关研究

最近的相关研究包括：《Deepfake Video Detection Using Recurrent Neural Networks》、《Deepfake Detection Based on Inconsistent Head Poses》、《Detecting Deepfake Videos in the Wild Using Text》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问