- 简介削波是一种常见的非线性失真,当音频系统的输入或输出超出支持范围时会发生。这种现象不仅破坏了语音质量的感知,还影响了利用被破坏信号的下游处理过程。因此,需要一种实时、稳健、响应时间低的语音去削波(SD)方法。在这项工作中,我们介绍了DDD(Demucs-Discriminator-Declipper),一种实时语音去削波深度神经网络(DNN),通过设计需要更少的响应时间。我们首先观察到之前未经测试的实时DNN模型Demucs表现出合理的去削波性能。然后,我们利用对抗性学习目标来提高输出语音的感知质量,而不需要额外的推理开销。对于严重削波的语音进行主观评估表明,DDD在语音质量方面大大优于基线。我们进行了详细的波形和频谱分析,以比较DDD与基线的输出行为。最后,我们的流媒体模拟也表明,DDD能够实现亚秒级的平均响应时间,比最先进的DNN方法快六倍。
-
- 图表
- 解决问题本论文旨在解决音频系统中出现的剪切失真问题,提出了一种实时、稳健且响应时间较短的语音去剪切深度神经网络(SD DNN)。
- 关键思路通过将对抗学习目标应用于Demucs模型,提高了输出语音的感知质量,同时不增加推理开销,从而实现了更快的响应时间。
- 其它亮点DDD在主观评估中表现出比基线更好的语音质量,通过波形和谱分析进一步验证了其性能。实验使用的数据集和开源代码也是值得关注的亮点。值得继续深入研究的是如何将该方法应用于其他领域。
- 相关研究包括:1)基于深度学习的音频剪切修复方法;2)使用GAN的语音增强方法;3)基于信号处理的音频剪切修复方法等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流