- 简介随着深度伪造视频内容的快速增长,我们需要改进和通用的方法来检测它们。大多数现有的检测方法要么使用单模态线索,要么依赖于监督训练来捕捉音频和视觉模态之间的不协调性。前者完全忽略了音频-视觉对应关系,后者主要集中于区分训练语料库中的音频-视觉线索,因此可能忽略了可以帮助检测未见过的深度伪造的对应关系。我们提出了一种名为“音频-视觉特征融合(AVFF)”的两阶段跨模态学习方法,明确捕捉音频和视觉模态之间的对应关系,以提高深度伪造检测的准确性。第一阶段通过对真实视频进行自我监督的表示学习来捕捉内在的音频-视觉对应关系。为了提取丰富的跨模态表示,我们使用对比学习和自编码目标,并引入一种新的音频-视觉互补掩蔽和特征融合策略。第二阶段对学习到的表示进行调整,通过对真实和伪造视频进行监督学习来进行深度伪造分类。广泛的实验和分析表明,我们的新颖表示学习范式具有高度的区分性质。我们在FakeAVCeleb数据集上报告了98.6%的准确率和99.1%的AUC,分别比当前的音频-视觉最先进技术高出14.9%和9.9%。
- 图表
- 解决问题论文旨在提出一种新的方法来检测Deepfake视频内容,以解决现有检测方法的局限性。
- 关键思路论文提出了一种两阶段的跨模态学习方法,名为Audio-Visual Feature Fusion(AVFF),通过自监督学习和对比学习目标来学习真实视频的内在音频-视觉对应关系,并在第二阶段通过监督学习来进行Deepfake分类。
- 其它亮点论文的实验结果表明,AVFF方法具有高度的辨别力,能够在FakeAVCeleb数据集上实现98.6%的准确率和99.1%的AUC,优于当前音频-视觉领域的最新研究成果。
- 最近在这个领域中,还有一些相关的研究,如《Exploiting Visual Artifacts to Improve Deepfake Video Detection》、《Multi-Task Deep Neural Networks for Real-Time 3D Human Pose Estimation》等。
沙发等你来抢
去评论
评论
沙发等你来抢