- 简介本文介绍了PeriodWave-Turbo,一种通过对抗流匹配优化实现高保真和高效率波形生成模型。最近,有条件流匹配(CFM)生成模型已成功用于波形生成任务,利用单个向量场估计目标进行训练。虽然这些模型可以生成高保真波形信号,但与只需要单个生成步骤的基于GAN的模型相比,它们需要更多的ODE步骤。此外,由于噪声向量场估计缺乏高频信息,生成的样本通常缺乏高频信息,无法保证高频重现。为了解决这个限制,我们通过引入固定步长生成器修改来增强预训练的CFM生成模型。我们利用重建损失和对抗反馈来加速高保真波形生成。通过对抗流匹配优化,只需要1000步微调即可在各种客观指标上实现最先进的性能。此外,我们将推断速度从16步降至2或4步。此外,通过将PeriodWave的主干参数从29M扩展到70M以改善泛化能力,PeriodWave-Turbo实现了前所未有的性能,在LibriTTS数据集上获得了4.454的语音质量感知评估(PESQ)分数。音频样本,源代码和检查点将在https://github.com/sh-lee-prml/PeriodWave上提供。
-
- 图表
- 解决问题本文旨在通过对抗流匹配优化实现高保真和高效率的波形生成模型。针对当前条件流匹配(CFM)生成模型需要大量ODE步骤和噪声向量场估计导致高频信息丢失的问题,提出了一种改进的CFM模型。
- 关键思路本文的关键思路是通过引入固定步长的生成器修改、重构损失和对抗反馈来加速高保真波形生成。通过对抗流匹配优化,只需要1000步微调就能在各种客观指标上实现最先进的性能。此外,通过增加PeriodWave的参数数量,可以实现更好的泛化能力。
- 其它亮点本文通过引入固定步长的生成器修改、重构损失和对抗反馈来加速高保真波形生成。实验结果表明,PeriodWave-Turbo在LibriTTS数据集上的感知评估语音质量(PESQ)得分达到了4.454。此外,作者还提供了音频样本、源代码和检查点。
- 最近在这个领域中,还有一些相关的研究,如WaveGlow、WaveNet和Parallel WaveGAN等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流