Pre-training Feature Guided Diffusion Model for Speech Enhancement

简介

语音增强可以显著提高在嘈杂环境下的语音清晰度和可理解性，从而改善交流和听力体验。在本文中，我们介绍了一种新颖的预训练特征引导扩散模型，专门用于高效的语音增强，解决了现有判别和生成模型的局限性。通过将频谱特征集成到变分自编码器（VAE）中，并在反向过程中利用预训练特征进行引导，再加上利用确定性离散积分方法（DDIM）来简化采样步骤，我们的模型提高了效率和语音增强质量。在两个具有不同信噪比的公共数据集上展示了最先进的结果，我们的模型在效率和鲁棒性方面优于其他基线。所提出的方法不仅优化了性能，而且增强了实际部署能力，而不增加计算需求。
图表
解决问题

本文旨在提出一种新的预训练特征引导扩散模型，以解决语音增强中现有的判别性和生成性模型的局限性，提高语音增强的效率和质量。
关键思路

本文的关键思路是将谱特征集成到变分自编码器（VAE）中，并在反向过程中利用预训练特征进行引导，同时利用确定性离散积分方法（DDIM）简化采样步骤，从而提高效率和语音增强质量。
其它亮点

本文的方法在两个公共数据集上展示了最先进的结果，表现出优越的效率和鲁棒性。该方法不仅优化了性能，而且提高了实际部署能力，而不增加计算需求。
相关研究

在这个领域中，最近的相关研究包括“Speech Enhancement Using a Deep Autoencoder with Perceptual Loss”和“Speech Enhancement Based on Deep Denoising Autoencoder with Principal Component Analysis”。

Pre-training Feature Guided Diffusion Model for Speech Enhancement

评论