MLAAD: The Multi-Language Audio Anti-Spoofing Dataset

简介

文本转语音（TTS）技术带来了显著的优势，例如为语言障碍者提供语音，但也使音频深度伪造和欺骗成为可能。前者会误导个人并可能传播错误信息，而后者会破坏声音生物识别安全系统。基于人工智能的检测可以通过自动区分真实和伪造的语音录音来解决这些挑战。然而，这些模型只有在其训练数据良好的情况下才能发挥作用，目前由于反欺骗数据库中过度集中于英语和中文音频而受到严重限制，从而限制了其全球效果。为此，本文提出了多语言音频反欺骗数据集（MLAAD），使用52个TTS模型，包括19种不同的架构，生成了23种不同语言的160.1小时的合成语音。我们使用MLAAD训练和评估了三个最先进的深度伪造检测模型，并观察到当作为训练资源时，MLAAD在性能上优于类似的数据集，如InTheWild或FakeOrReal。此外，与著名的ASVspoof 2019数据集相比，MLAAD被证明是一个补充资源。在八个数据集的测试中，MLAAD和ASVspoof 2019交替表现优异，两者都在四个数据集上表现出色。通过发布MLAAD并通过交互式Web服务器使训练模型可访问，我们旨在使反欺骗技术民主化，使其超出专家领域，从而为全球打击音频欺骗和深度伪造做出贡献。
图表
解决问题

该论文旨在解决语音深度伪造和欺骗的问题，以及针对英语和中文集中的反欺骗数据库的限制，提出了多语言音频反欺骗数据集（MLAAD）以及相应的AI检测模型。
关键思路

该论文的关键思路是使用52个TTS模型生成23种不同语言的160.1小时合成语音，训练和评估三种最先进的深度伪造检测模型，并证明MLAAD在训练资源方面表现优异。
其它亮点

该论文的亮点包括使用多语言数据集，通过使用不同的TTS模型来生成合成语音，以及通过交互式网络服务器使训练模型易于访问和使用。实验设计包括对八个数据集的测试，包括ASVspoof 2019等。
相关研究

最近的相关研究包括ASVspoof 2019和InTheWild或FakeOrReal等数据集。

MLAAD: The Multi-Language Audio Anti-Spoofing Dataset

评论