每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes
Pavel Korshunov,
Haolin Chen,
Philip N. Garner
2023年11月29日
深度伪造检测的任务远未被语音或视觉研究者解决。已经建立了几个公开数据库来帮助开发检测方法。然而,现有的数据库通常只关注视觉或语音模态,并没有证据表明它们的深度伪造实际上可以模仿任何真实的人。本文介绍了第一个逼真的音频-视觉深度伪造数据库SWAN-DF,其中嘴唇和语音同步,视频具有高质量的视觉和音频。我们使用DeepFaceLab的几个模型和面部交换和HiFiVC、DiffVC、YourTTS和FreeVC模型的混合技术,从公开可用的SWAN真实视频数据集中选择不同身份的视频来创建音频-视觉深度伪造。从公开可用的语音数据集LibriTTS中,我们还使用几种最新的文本到语音方法创建了一个单独的音频深度伪造数据库LibriTTS-DF:YourTTS、Adaspeech和TorToiSe。我们展示了一种最先进的说话人识别系统(例如SpeechBrain中基于ECAPA-TDNN的模型)对合成声音的脆弱性。同样,我们将基于MobileFaceNet架构的人脸识别系统测试到我们的几个视觉深度伪造的变体上。脆弱性评估表明,通过将现有的预训练深度伪造模型调整到特定的身份,可以在90%以上的时间内成功欺骗面部和说话人识别系统,并实现一个非常逼真的看起来和听起来像给定人物的假视频。
CV
AI
MM
PDF
解读