SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis

IEEE International Conference on Acoustics, Speech and Signal Processing, Apr 2024, Seoul (Korea), South Korea
2024年01月30日
  • 简介
    生成对抗网络(GAN)模型可以合成高质量的音频信号,同时确保快速的样本生成。然而,它们很难训练,且容易出现多种问题,包括模式崩溃和发散。在本文中,我们介绍了SpecDiff-GAN,这是一种基于HiFi-GAN的神经声码器,最初是为了从mel频谱图合成语音而设计的。在我们的模型中,通过使用正向扩散过程来增强训练稳定性,该过程包括向真实和虚假的样本注入来自高斯分布的噪声,然后将它们输入鉴别器。我们进一步改进了模型,通过利用具有频谱形状的噪声分布,使鉴别器的任务更具挑战性。接着,我们展示了我们提出的模型在多个数据集上进行语音和音乐合成的优点。我们的实验证明,与几个基线相比,我们的模型在音频质量和效率方面表现出色。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决生成对抗网络(GAN)模型在音频信号合成方面的训练困难和容易出现崩溃等问题,并提出了一种基于HiFi-GAN的神经声码器SpecDiff-GAN。
  • 关键思路
    通过向真实和虚假样本注入来自高斯分布的噪声,并将其输入鉴别器来进行正向扩散过程,从而增强了训练的稳定性。同时,利用谱形状噪声分布进一步改进模型,使鉴别器的任务更具挑战性。
  • 其它亮点
    论文在多个数据集上展示了提出模型在语音和音乐合成方面的优异表现,比多个基线模型在音频质量和效率方面表现更好。论文还开源了代码。
  • 相关研究
    最近的相关研究包括:1. WaveGrad: Estimating Gradients for Waveform Generation (2021); 2. High-Fidelity Generative Modeling with Diffusion (2021); 3. A Survey of Deep Learning for Audio Signal Processing (2020).
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问