Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

简介

深度伪造检测的任务远未被语音或视觉研究者解决。已经建立了几个公开数据库来帮助开发检测方法。然而，现有的数据库通常只关注视觉或语音模态，并没有证据表明它们的深度伪造实际上可以模仿任何真实的人。本文介绍了第一个逼真的音频-视觉深度伪造数据库SWAN-DF，其中嘴唇和语音同步，视频具有高质量的视觉和音频。我们使用DeepFaceLab的几个模型和面部交换和HiFiVC、DiffVC、YourTTS和FreeVC模型的混合技术，从公开可用的SWAN真实视频数据集中选择不同身份的视频来创建音频-视觉深度伪造。从公开可用的语音数据集LibriTTS中，我们还使用几种最新的文本到语音方法创建了一个单独的音频深度伪造数据库LibriTTS-DF：YourTTS、Adaspeech和TorToiSe。我们展示了一种最先进的说话人识别系统（例如SpeechBrain中基于ECAPA-TDNN的模型）对合成声音的脆弱性。同样，我们将基于MobileFaceNet架构的人脸识别系统测试到我们的几个视觉深度伪造的变体上。脆弱性评估表明，通过将现有的预训练深度伪造模型调整到特定的身份，可以在90％以上的时间内成功欺骗面部和说话人识别系统，并实现一个非常逼真的看起来和听起来像给定人物的假视频。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决深度伪造技术的检测问题。作者构建了一个包含视觉和语音伪造的数据库，用于测试检测方法的有效性。
关键思路

本论文的关键思路是构建一个高质量的深度伪造数据库，以测试现有的检测方法。作者还展示了当前的深度伪造技术可以成功欺骗面部和说话人识别系统。
其它亮点

作者创建了一个包含视觉和语音伪造的数据库，用于测试检测方法的有效性。作者展示了当前的深度伪造技术可以成功欺骗面部和说话人识别系统。作者还测试了多个最新的语音合成方法，并展示了这些方法的效果。
相关研究

最近在这个领域中，还有其他研究关注深度伪造技术的检测。例如，论文“Deep Video Portraits”和“FaceForensics++”也涉及到这个问题。

Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

提问交流

提问交流