An Investigation of Time-Frequency Representation Discriminators for High-Fidelity Vocoder

2024年04月26日
  • 简介
    这篇文章研究了基于生成对抗网络(GAN)的声码器中如何改进鉴别器。目前大多数基于时频表示(TFR)的鉴别器都基于短时傅里叶变换(STFT),它具有恒定的时频分辨率、线性缩放的中心频率和固定的分解基础,这使得它与需要对不同频段和不同时间间隔进行动态关注的信号(如歌声)不兼容。因此,本研究提出了一种多尺度子带常Q变换CQT(MS-SB-CQT)鉴别器和一种多尺度时间压缩连续小波变换CWT(MS-TC-CWT)鉴别器。CQT和CWT都具有不同频段的动态时频分辨率。与此相比,CQT在音高信息建模方面具有更好的能力,而CWT在短时瞬变建模方面具有更好的能力。对语音和歌声进行的实验证实了所提出的鉴别器的有效性。此外,STFT、CQT和CWT鉴别器可以联合使用以获得更好的性能。所提出的鉴别器可以提高各种最先进的GAN-based声码器的合成质量,包括HiFi-GAN、BigVGAN和APNet。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在改进基于生成对抗网络(GAN)的声码器中的鉴别器,解决现有时间-频率表示(TFR)鉴别器在不同频带和时间间隔上的动态关注问题。
  • 关键思路
    本文提出了多尺度子带常量-Q变换CQT(MS-SB-CQT)鉴别器和多尺度时间压缩连续小波变换CWT(MS-TC-CWT)鉴别器,这两种方法相比于现有的基于STFT的鉴别器具有更好的建模能力,可以提高各种GAN声码器的合成质量。
  • 其它亮点
    本文使用了语音和歌声数据集进行了实验,证实了所提出的鉴别器的有效性。此外,本文还提出了联合使用STFT、CQT和CWT鉴别器以获得更好性能的方法。本文提出的方法可以应用于各种最先进的GAN声码器,包括HiFi-GAN,BigVGAN和APNet。
  • 相关研究
    最近的相关研究包括:1)使用GAN进行音频合成的研究;2)使用不同的鉴别器进行GAN声码器的改进。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问