Proactive Detection of Voice Cloning with Localized Watermarking

2024年01月30日
  • 简介
    在语音生成模型快速发展的领域中,有一个迫切的需求,即确保语音的真实性,以防止声音克隆的风险。我们提出了AudioSeal,这是第一个专门设计用于本地化检测人工智能生成语音的音频水印技术。AudioSeal采用了生成器/检测器架构,与定位损失一起进行联合训练,以实现局部水印检测,达到样本级别,并采用受听觉掩蔽启发的新型感知损失,使AudioSeal能够实现更好的不可察觉性。AudioSeal在自动评估和人工评估指标上实现了最先进的实时音频操作和不可察觉性能力。此外,AudioSeal设计了一个快速的单次检测器,其速度明显超过现有模型,达到了快速检测的效果,可用于大规模和实时应用。
  • 图表
  • 解决问题
    论文旨在解决语音生成模型中的声音真实性问题,通过设计一种音频数字水印技术来检测声音克隆风险。
  • 关键思路
    论文提出了一种名为AudioSeal的音频数字水印技术,该技术采用生成器/检测器架构,结合本地化损失和受听觉掩蔽启发的新型感知损失,实现了高精度的本地化数字水印检测和更好的不可察觉性。
  • 其它亮点
    论文在实验中使用了多个数据集,并使用自动和人工评估指标评估了AudioSeal的性能。此外,AudioSeal还具有快速的单次检测器,检测速度比现有模型提高了两个数量级,非常适合大规模和实时应用。论文也开源了代码。
  • 相关研究
    最近在该领域的相关研究包括:'Protecting World Models by Abstraction-Based Monitoring','Voice Privacy in the Internet of Things Era: Challenges and Solutions','Speaker Verification in the Limit of Insufficient Data Using Generative Adversarial Networks'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论