- 简介在音频水印领域,要同时实现编码难以察觉的信息、增加信息容量和鲁棒性是具有挑战性的。尽管基于深度学习的方法在信息容量和鲁棒性方面相对于传统方法取得了最新进展,但编码的信息会产生听觉伪影,从而限制了它们在专业环境中的使用。在本研究中,我们引入了三个关键创新。首先,我们的工作是第一个将基于心理声学模型的阈值处理与深度学习模型相结合以实现难以察觉的水印。其次,我们引入了伪可微压缩层,增强了我们的水印算法的鲁棒性。最后,我们引入了一种消除感知损失需要的方法,使我们在鲁棒性和难以察觉的水印方面都达到了最先进水平。我们的贡献使我们得到了SilentCipher,这是一个能够让用户在采样率为44.1kHz的音频信号中编码信息的模型。
- 图表
- 解决问题音频水印技术中需要在保证信息不可感知的同时提高信息容量和鲁棒性,但是现有的深度学习方法会引入可听的伪影,限制了其在专业场景中的应用。本文旨在解决这一问题。
- 关键思路本文提出了三个关键创新:首先,引入基于心理声学模型的阈值处理,实现信息不可感知;其次,引入伪可微压缩层,提高水印算法的鲁棒性;最后,提出一种无需感知损失的方法,实现了鲁棒性和不可感知水印技术的最新水平。
- 其它亮点本文提出的SilentCipher模型可以在44.1kHz的音频信号中嵌入信息,具有高鲁棒性和信息容量,且不会引入可听的伪影。实验使用了公开数据集,并开源了代码。
- 近期相关研究包括:1)基于深度学习的音频水印技术的研究;2)基于心理声学模型的信息隐藏技术的研究;3)针对感知损失的优化方法的研究。
沙发等你来抢
去评论
评论
沙发等你来抢