GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis

2024年07月15日
  • 简介
    在生成模型(如扩散模型)蓬勃发展的背景下,区分合成音频和自然音频的任务变得更加艰巨。Deepfake检测提供了一个可行的解决方案来应对这一挑战。然而,这种防御措施无意中助长了生成模型的持续改进。水印技术成为一种积极和可持续的策略,预先监管合成内容的创作和传播。因此,本文提出了一种生成鲁棒音频水印技术(Groot),作为先驱,提出了一种范例,以积极监督合成音频及其源扩散模型。在这个范例中,水印生成和音频合成的过程同时进行,由带有专用编码器的参数固定的扩散模型进行。随后可以通过轻量级解码器检索嵌入在音频中的水印。实验结果突出了Groot的出色性能,特别是在鲁棒性方面,超过了领先的最先进方法。除了在个别后处理攻击方面表现出卓越的韧性外,Groot在面对复合攻击时也表现出了异常的鲁棒性,保持了约95%的平均水印提取准确率。
  • 图表
  • 解决问题
    本文提出了一种生成鲁棒音频水印的方法,以预防合成内容的制作和传播。该方法的目的是解决合成音频与自然音频之间的区别越来越难以区分的问题。
  • 关键思路
    该方法采用参数固定的扩散模型和专用编码器来同时生成水印和音频,并在音频中嵌入水印。然后,使用轻量级解码器可以提取嵌入在音频中的水印,以监管合成音频和其来源扩散模型。
  • 其它亮点
    实验结果表明,该方法在鲁棒性方面表现出色,尤其是在面对复合攻击时,平均水印提取准确率约为95%。值得关注的是,该方法在个别后处理攻击方面也具有出色的鲁棒性。
  • 相关研究
    最近的相关研究包括利用深度学习技术进行音频合成和检测的研究。例如,一些研究提出了使用对抗性训练来提高检测模型的鲁棒性。另外,一些研究探索了使用传统数字水印技术来保护音频内容的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论