Universal Score-based Speech Enhancement with High Content Preservation

2024年06月18日
  • 简介
    我们提出了UNIVERSE++,一种基于基于分数扩散和对抗训练的通用语音增强方法。具体而言,我们改进了现有的UNIVERSE模型,将干净语音特征提取和扩散分离开来。我们的贡献有三个方面。首先,我们对网络架构进行了几个修改,提高了训练稳定性和最终性能。其次,我们引入了对抗性损失,以促进学习高质量的语音特征。第三,我们提出了一种低秩自适应方案,采用音素保真度损失来提高增强语音中内容的保留。在实验中,我们在一个大规模的语音数据集上训练了一个通用增强模型,该数据集被噪声、混响和各种失真所破坏。在多个公共基准数据集上的结果表明,UNIVERSE++在广泛的定性和可懂性指标上都比判别式和生成式基线表现更好。
  • 图表
  • 解决问题
    UNIVERSE++论文试图解决语音增强中存在的问题,如噪声、混响和失真等问题,以提高语音质量和可懂度。同时,论文还尝试提出一种新的通用语音增强方法。
  • 关键思路
    论文中提出了一种基于得分扩散和对抗性训练的通用语音增强方法UNIVERSE++,该方法能够有效地提高语音质量和可懂度。同时,论文还对网络架构进行了多个修改,引入了对抗性损失和低秩适应机制等,以提高模型稳定性和性能。
  • 其它亮点
    论文使用大规模数据集训练了通用语音增强模型,并在多个公共基准数据集上进行了实验,结果表明UNIVERSE++方法在质量和可懂度等多个指标上都优于当前的判别式和生成式基线方法。此外,论文还提供了开源代码,为后续研究提供了参考。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Speech Enhancement Using a Convolutional Neural Network Trained with Noise-aware Training Strategy》、《A Review of Deep Learning Based Speech Enhancement》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论