FairSSD: Understanding Bias in Synthetic Speech Detectors

2024年04月17日
  • 简介
    现在有一些方法可以生成与人类演讲者录制的语音在感知上无法区分的合成语音,这些方法很容易获得。已经有一些事件报告了滥用这些方法生成的合成语音来进行欺诈行为。为了应对这种滥用,已经提出了许多方法来检测合成语音。其中一些检测器更具可解释性,可以推广到野外检测合成语音并且对噪声具有鲁棒性。然而,目前对这些检测器中的偏见了解还很有限。在这项工作中,我们检查现有合成语音检测器中的偏见,以确定它们是否会不公平地针对特定的性别、年龄和口音群体。我们还检查这些检测器是否会对有言语障碍的演讲者的真实语音与流利演讲者的真实语音的误分类率更高。使用超过900,000个语音信号对6个现有的合成语音检测器进行了广泛的实验,结果表明大多数检测器存在性别、年龄和口音偏见,未来需要进一步确保公平性。为了支持未来的研究,我们在https://gitlab.com/viper-purdue/fairssd上发布了我们的评估数据集、研究中使用的模型和源代码。
  • 图表
  • 解决问题
    本文旨在研究现有的合成语音检测器是否存在性别、年龄、口音等偏见,并检查这些检测器是否对语音障碍者和流利说话者的真实语音分类存在误差。
  • 关键思路
    本文通过对超过90万个语音信号进行广泛实验,发现大多数检测器存在性别、年龄、口音偏见,并提出了未来需要确保公平性的研究方向。
  • 其它亮点
    本文提供了一个评估数据集,并公开了研究中使用的模型和源代码。实验采用了六种现有的合成语音检测器,并详细介绍了实验设计和结果分析。本文的亮点在于对合成语音检测器的偏见问题进行了深入研究,并提出了未来研究的方向。
  • 相关研究
    最近在该领域的相关研究包括:1.《语音生成中的公平性问题》;2.《语音识别偏见的消除方法》;3.《合成语音检测器的鲁棒性研究》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论