Proactive Detection of Voice Cloning with Localized Watermarking

简介

在不断发展的语音生成模型领域中，有必要确保语音的真实性，以防止声音克隆的风险。我们介绍了AudioSeal，这是一种专门为本地化检测人工智能生成的语音而设计的首个音频水印技术。AudioSeal采用了生成器/检测器架构，与本地化损失一起进行训练，以实现局部水印检测，达到样本级别，并采用受听觉掩蔽启发的新型感知损失，使AudioSeal能够更好地实现不可感知性。在自动和人工评估指标方面，AudioSeal在真实生活音频操作和不可感知性方面实现了最先进的性能。此外，AudioSeal设计了一个快速的单通检测器，其速度显著超过现有模型，实现了高达两个数量级的检测速度，非常适合大规模和实时应用。
图表
解决问题

论文旨在解决语音生成模型中面临的声音克隆风险问题，提出了一种专门针对AI生成语音的本地化检测的音频水印技术。
关键思路

AudioSeal采用生成器/检测器架构，与本地化损失一起训练，实现了高达样本级别的本地化水印检测，并使用受听觉掩蔽启发的新型感知损失，使AudioSeal在保持不可感知性的同时实现更好的性能。
其它亮点

论文实现了快速的单次检测器，比现有模型快两个数量级。在自动和人工评估指标上，AudioSeal实现了最先进的性能，具有对真实生活音频操作的稳健性和不可感知性。实验中使用了哪些数据集和开源代码等信息没有提及。
相关研究

相关研究包括语音生成模型中的声音克隆问题解决方案，如DARCI和VoiceNet等。

Proactive Detection of Voice Cloning with Localized Watermarking

评论