- 简介本研究旨在改进判别器以提升基于生成对抗网络(GAN)的声码器。在将声学表示转换为可听的波形时,基于GAN的声码器在推理速度和合成质量方面都表现优异。目前大多数基于时频表示的判别器都基于短时傅里叶变换(STFT),其在频谱中的时频分辨率是固定的,这使得它不适用于像歌唱声音这样需要对不同频带进行灵活关注的信号。因此,本研究利用了具有动态分辨率的常量-Q变换(CQT),以提高音高准确度和谐波跟踪的建模能力。具体地,我们提出了一种多尺度子带CQT(MS-SB-CQT)判别器,该判别器在多个尺度上操作CQT频谱图,并根据不同的八度进行子带处理。在语音和歌唱声音上进行的实验证实了我们提出的方法的有效性。此外,我们还验证了CQT和STFT判别器在联合训练下可以相互补充。具体地,通过提出的MS-SB-CQT和现有的MS-STFT判别器的增强,HiFi-GAN的MOS可以从看到的歌手的3.27提升到3.87,从未见过的歌手的3.40提升到3.78。
- 图表
- 解决问题本论文的问题是如何改进GAN-based vocoders中的鉴别器,以提高音频重建的质量和速度。作者使用Constant-Q Transform(CQT)代替现有的基于STFT的时间-频率表示鉴别器,以提高模型在不同频率带上的建模能力。
- 关键思路本论文的关键思路是使用动态分辨率的CQT代替STFT作为鉴别器,提高模型在不同频率带上的建模能力。此外,作者还提出了一个多尺度子带CQT鉴别器,用于在不同八度上进行子带处理。
- 其它亮点论文使用实验验证了所提出的方法在语音和歌声上的有效性,并发现CQT和STFT鉴别器可以在联合训练中相互补充。此外,作者还开源了实验所用的数据集和代码,为后续研究提供了便利。
- 最近的相关研究包括“MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis”和“Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram”等。
沙发等你来抢
去评论
评论
沙发等你来抢