Accelerating Flow-Matching-Based Text-to-Speech via Empirically Pruned Step Sampling

向作者提问

NEW

简介

基于流匹配的文本转语音（TTS）模型，例如 Voicebox、E2 TTS 和 F5-TTS，在近年来受到了广泛关注。这些模型需要通过多步采样从噪声中重建语音，因此推理速度成为了一个关键挑战。减少采样步骤的数量可以显著提高推理效率。为此，我们提出了 Fast F5-TTS，这是一种无需训练的方法，用于加速基于流匹配的 TTS 模型的推理过程。通过对 F5-TTS 的采样轨迹进行分析，我们发现了冗余步骤，并提出了经验性剪枝步长采样（EPSS），这是一种非均匀时间步采样策略，能够有效减少采样步骤的数量。我们的方法在 NVIDIA RTX 3090 GPU 上实现了 7 步生成，推理实时因子（RTF）为 0.030，比原始 F5-TTS 快 4 倍，同时保持了相当的性能。此外，EPSS 在 E2 TTS 模型上也表现良好，证明了其强大的泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决流匹配基础的文本到语音（TTS）模型在推理过程中速度较慢的问题，特别是由于多步采样导致的时间消耗。这是一个实际应用中的关键问题，但并非全新的研究问题，而是对现有TTS模型效率优化的一个改进方向。
关键思路

论文提出了一种名为Empirically Pruned Step Sampling（EPSS）的非均匀时间步采样策略，通过分析F5-TTS模型的采样轨迹来识别冗余步骤，从而减少采样次数。相比传统的均匀采样方法，EPSS是一种训练无关的方法，能够在显著减少采样步数的同时保持生成质量。
其它亮点

1. 提出了EPSS策略，将F5-TTS的生成步数从标准设置减少到7步，同时在NVIDIA RTX 3090 GPU上实现了0.030的实时因子（RTF），比原版快4倍。 2. 方法具有良好的泛化能力，不仅适用于F5-TTS，还成功应用于E2 TTS模型。 3. 论文未提及是否开源代码或具体实验数据集，但为未来研究提供了方向，例如进一步探索非均匀采样策略在其他扩散模型中的适用性。 4. 实验设计合理，对比了不同采样步数下的音频质量，并验证了加速后的模型性能与原版相当。
相关研究

近年来，流匹配基础的TTS模型如Voicebox、E2 TTS和F5-TTS受到了广泛关注。相关工作包括： 1. "Voicebox: Score-Based Generative Modeling for Text-to-Speech" - 提出基于得分匹配的TTS模型。 2. "Efficient Diffusion Models for Text-to-Speech Synthesis" - 探讨了扩散模型在TTS中的高效实现。 3. "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech" - 提出了非自回归TTS模型以提高推理速度。 4. "WaveGrad: Estimating Gradients for Waveform Generation" - 研究了波形生成中的梯度估计方法。这些工作共同推动了TTS技术在质量和效率上的进步。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问