An RFP dataset for Real, Fake, and Partially fake audio detection

2024年04月26日
  • 简介
    最近深度学习的进展使得合成语音的自然度得到了提高。然而,攻击者也利用这些技术进行网络钓鱼等攻击。为了开发有效的检测模型,已经创建了许多公共数据集。然而,现有的数据集只包含完全虚假的音频,因此检测模型可能会错过用虚假音频替换真实音频的攻击。为了解决这个问题,本文提出了RFP数据集,其中包括五种不同类型的音频:部分虚假(PF)、带噪声的音频、语音转换(VC)、文本转语音(TTS)和真实音频。然后使用这些数据来评估几种检测模型,结果显示,与完全虚假音频相比,可用的检测模型在检测部分虚假音频时产生了明显更高的等误差率(EER)。最低的EER记录为25.42%。因此,我们认为,检测模型的创建者必须认真考虑使用像RFP这样包括PF和其他类型虚假音频的数据集。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决利用深度学习技术制造的虚假语音攻击,如钓鱼攻击,可能被现有检测模型漏检的问题,提出使用包含部分虚假语音的数据集来提高检测准确率。
  • 关键思路
    本文提出了一个包含五种不同类型音频的数据集(部分虚假、带噪声、语音转换、文本转语音和真实音频),并使用该数据集评估了多个检测模型。结果表明,现有检测模型在检测部分虚假语音时,误差率明显较高。
  • 其它亮点
    本文的亮点包括提出新的数据集以解决现有数据集无法检测部分虚假语音的问题,以及评估了多个检测模型的性能。实验结果表明,使用包含部分虚假语音的数据集可以提高检测准确率。本文还提供了数据集和代码的开源。
  • 相关研究
    在这个领域中,最近的相关研究包括“Voice Spoofing Detection using High-Order Statistics and Deep Belief Networks”和“Deep Residual Learning for Small-Footprint Text-dependent Speaker Verification”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问