Pre-training Feature Guided Diffusion Model for Speech Enhancement

2024年06月11日
  • 简介
    语音增强可以显著提高在嘈杂环境下的语音清晰度和可理解性,从而改善交流和听力体验。在本文中,我们介绍了一种新颖的预训练特征引导扩散模型,专门用于高效的语音增强,解决了现有判别和生成模型的局限性。通过将频谱特征集成到变分自编码器(VAE)中,并在反向过程中利用预训练特征进行引导,再加上利用确定性离散积分方法(DDIM)来简化采样步骤,我们的模型提高了效率和语音增强质量。在两个具有不同信噪比的公共数据集上展示了最先进的结果,我们的模型在效率和鲁棒性方面优于其他基线。所提出的方法不仅优化了性能,而且增强了实际部署能力,而不增加计算需求。
  • 图表
  • 解决问题
    本文旨在提出一种新的预训练特征引导扩散模型,以解决语音增强中现有的判别性和生成性模型的局限性,提高语音增强的效率和质量。
  • 关键思路
    本文的关键思路是将谱特征集成到变分自编码器(VAE)中,并在反向过程中利用预训练特征进行引导,同时利用确定性离散积分方法(DDIM)简化采样步骤,从而提高效率和语音增强质量。
  • 其它亮点
    本文的方法在两个公共数据集上展示了最先进的结果,表现出优越的效率和鲁棒性。该方法不仅优化了性能,而且提高了实际部署能力,而不增加计算需求。
  • 相关研究
    在这个领域中,最近的相关研究包括“Speech Enhancement Using a Deep Autoencoder with Perceptual Loss”和“Speech Enhancement Based on Deep Denoising Autoencoder with Principal Component Analysis”。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论