An Investigation of Time-Frequency Representation Discriminators for High-Fidelity Vocoder

简介

这篇文章研究了基于生成对抗网络（GAN）的声码器中如何改进鉴别器。目前大多数基于时频表示（TFR）的鉴别器都基于短时傅里叶变换（STFT），它具有恒定的时频分辨率、线性缩放的中心频率和固定的分解基础，这使得它与需要对不同频段和不同时间间隔进行动态关注的信号（如歌声）不兼容。因此，本研究提出了一种多尺度子带常Q变换CQT（MS-SB-CQT）鉴别器和一种多尺度时间压缩连续小波变换CWT（MS-TC-CWT）鉴别器。CQT和CWT都具有不同频段的动态时频分辨率。与此相比，CQT在音高信息建模方面具有更好的能力，而CWT在短时瞬变建模方面具有更好的能力。对语音和歌声进行的实验证实了所提出的鉴别器的有效性。此外，STFT、CQT和CWT鉴别器可以联合使用以获得更好的性能。所提出的鉴别器可以提高各种最先进的GAN-based声码器的合成质量，包括HiFi-GAN、BigVGAN和APNet。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在改进基于生成对抗网络（GAN）的声码器中的鉴别器，解决现有时间-频率表示（TFR）鉴别器在不同频带和时间间隔上的动态关注问题。
关键思路

本文提出了多尺度子带常量-Q变换CQT（MS-SB-CQT）鉴别器和多尺度时间压缩连续小波变换CWT（MS-TC-CWT）鉴别器，这两种方法相比于现有的基于STFT的鉴别器具有更好的建模能力，可以提高各种GAN声码器的合成质量。
其它亮点

本文使用了语音和歌声数据集进行了实验，证实了所提出的鉴别器的有效性。此外，本文还提出了联合使用STFT、CQT和CWT鉴别器以获得更好性能的方法。本文提出的方法可以应用于各种最先进的GAN声码器，包括HiFi-GAN，BigVGAN和APNet。
相关研究

最近的相关研究包括：1）使用GAN进行音频合成的研究；2）使用不同的鉴别器进行GAN声码器的改进。

An Investigation of Time-Frequency Representation Discriminators for High-Fidelity Vocoder

提问交流

提问交流