CLAD: Robust Audio Deepfake Detection Against Manipulation Attacks with Contrastive Learning

2024年04月24日
  • 简介
    音频Deepfake的普及日益增加,给安全带来了重大威胁,需要强大的检测方法。虽然现有的检测系统表现出了希望,但它们对恶意音频操作的稳健性仍未得到充分探索。为了弥补这一差距,我们进行了第一次广泛的研究,研究了最广泛采用的音频Deepfake检测器对操纵攻击的易感性。令人惊讶的是,即使像音量控制这样的操作也可以显著地绕过检测,而不影响人类感知。为了解决这个问题,我们提出了CLAD(基于对比学习的音频Deepfake检测器),以增强对操纵攻击的稳健性。关键的想法是将对比学习纳入其中,以最小化操纵引入的变化,从而增强检测的稳健性。此外,我们还加入了一个长度损失,旨在通过在特征空间中更紧密地聚类真实音频来提高检测精度。我们全面评估了最广泛采用的音频Deepfake检测模型和我们提出的CLAD对各种操纵攻击的反应。检测模型表现出易受攻击的漏洞,在音量控制、褪色和噪声注入下,FAR分别上升到36.69%、31.23%和51.28%。 CLAD提高了稳健性,将在噪声注入下的FAR降至0.81%,并在所有测试中始终保持FAR低于1.63%。我们的源代码和文档可在artifact存储库(https://github.com/CLAD23/CLAD)中获得。
  • 图表
  • 解决问题
    本论文旨在解决音频深度伪造技术的安全威胁问题,通过研究当前广泛采用的音频深度伪造检测器的鲁棒性,提出了一种新的对抗攻击检测方法。
  • 关键思路
    本文提出了一种基于对比学习的音频深度伪造检测方法CLAD,通过最小化对抗攻击引入的变化来提高检测器的鲁棒性,并引入长度损失来提高检测准确性。
  • 其它亮点
    本文对当前广泛采用的音频深度伪造检测模型以及提出的CLAD方法进行了全面评估,并展示了检测器的脆弱性。实验结果表明,CLAD方法能够显著提高检测器的鲁棒性,并在各项测试中保持较低的假阳性率。该论文提供了开源代码和文档。
  • 相关研究
    最近的相关研究包括:(1) DeepSBD,一种基于深度学习的语音伪造检测器;(2) ResembleNet,一种基于残差网络的语音伪造检测器。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论