DDD: A Perceptually Superior Low-Response-Time DNN-based Declipper

简介

削波是一种常见的非线性失真，当音频系统的输入或输出超出支持范围时会发生。这种现象不仅破坏了语音质量的感知，还影响了利用被破坏信号的下游处理过程。因此，需要一种实时、稳健、响应时间低的语音去削波（SD）方法。在这项工作中，我们介绍了DDD（Demucs-Discriminator-Declipper），一种实时语音去削波深度神经网络（DNN），通过设计需要更少的响应时间。我们首先观察到之前未经测试的实时DNN模型Demucs表现出合理的去削波性能。然后，我们利用对抗性学习目标来提高输出语音的感知质量，而不需要额外的推理开销。对于严重削波的语音进行主观评估表明，DDD在语音质量方面大大优于基线。我们进行了详细的波形和频谱分析，以比较DDD与基线的输出行为。最后，我们的流媒体模拟也表明，DDD能够实现亚秒级的平均响应时间，比最先进的DNN方法快六倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决音频系统中出现的剪切失真问题，提出了一种实时、稳健且响应时间较短的语音去剪切深度神经网络（SD DNN）。
关键思路

通过将对抗学习目标应用于Demucs模型，提高了输出语音的感知质量，同时不增加推理开销，从而实现了更快的响应时间。
其它亮点

DDD在主观评估中表现出比基线更好的语音质量，通过波形和谱分析进一步验证了其性能。实验使用的数据集和开源代码也是值得关注的亮点。值得继续深入研究的是如何将该方法应用于其他领域。
相关研究

相关研究包括：1）基于深度学习的音频剪切修复方法；2）使用GAN的语音增强方法；3）基于信号处理的音频剪切修复方法等。

DDD: A Perceptually Superior Low-Response-Time DNN-based Declipper

提问交流

提问交流