Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization

向作者提问

NEW

简介

本文介绍了PeriodWave-Turbo，一种通过对抗流匹配优化实现高保真和高效率波形生成模型。最近，有条件流匹配（CFM）生成模型已成功用于波形生成任务，利用单个向量场估计目标进行训练。虽然这些模型可以生成高保真波形信号，但与只需要单个生成步骤的基于GAN的模型相比，它们需要更多的ODE步骤。此外，由于噪声向量场估计缺乏高频信息，生成的样本通常缺乏高频信息，无法保证高频重现。为了解决这个限制，我们通过引入固定步长生成器修改来增强预训练的CFM生成模型。我们利用重建损失和对抗反馈来加速高保真波形生成。通过对抗流匹配优化，只需要1000步微调即可在各种客观指标上实现最先进的性能。此外，我们将推断速度从16步降至2或4步。此外，通过将PeriodWave的主干参数从29M扩展到70M以改善泛化能力，PeriodWave-Turbo实现了前所未有的性能，在LibriTTS数据集上获得了4.454的语音质量感知评估（PESQ）分数。音频样本，源代码和检查点将在https://github.com/sh-lee-prml/PeriodWave上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在通过对抗流匹配优化实现高保真和高效率的波形生成模型。针对当前条件流匹配（CFM）生成模型需要大量ODE步骤和噪声向量场估计导致高频信息丢失的问题，提出了一种改进的CFM模型。
关键思路

本文的关键思路是通过引入固定步长的生成器修改、重构损失和对抗反馈来加速高保真波形生成。通过对抗流匹配优化，只需要1000步微调就能在各种客观指标上实现最先进的性能。此外，通过增加PeriodWave的参数数量，可以实现更好的泛化能力。
其它亮点

本文通过引入固定步长的生成器修改、重构损失和对抗反馈来加速高保真波形生成。实验结果表明，PeriodWave-Turbo在LibriTTS数据集上的感知评估语音质量（PESQ）得分达到了4.454。此外，作者还提供了音频样本、源代码和检查点。
相关研究

最近在这个领域中，还有一些相关的研究，如WaveGlow、WaveNet和Parallel WaveGAN等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问