- 简介近年来,基于流匹配的文本转语音(TTS)模型,例如 Voicebox、E2 TTS 和 F5-TTS,引起了广泛关注。这些模型需要多个采样步骤从噪声中重建语音,这使得推理速度成为一项关键挑战。减少采样步骤的数量可以显著提高推理效率。为此,我们提出了 Fast F5-TTS,这是一种无需训练的方法,用于加速基于流匹配的 TTS 模型的推理过程。通过分析 F5-TTS 的采样轨迹,我们发现了冗余步骤,并提出了一种非均匀时间步采样策略——经验剪枝步采样(EPSS),该策略能够有效减少采样步骤的数量。我们的方法在 NVIDIA RTX 3090 GPU 上实现了 7 步生成,推理实时因子(RTF)为 0.030,比原始 F5-TTS 快 4 倍,同时保持了相当的性能。此外,EPSS 在 E2 TTS 模型上也表现出色,证明了其强大的泛化能力。
- 图表
- 解决问题该论文试图解决流匹配(flow-matching)基于的文本到语音(TTS)模型在推理过程中速度较慢的问题,特别是通过减少采样步骤来提升效率。这是一个在实际应用中需要解决的重要问题,但并非全新的研究方向,而是对现有加速方法的改进。
- 关键思路论文提出了一种名为Empirically Pruned Step Sampling(EPSS)的非均匀时间步采样策略,通过分析F5-TTS模型的采样轨迹,识别并移除冗余步骤,从而显著减少生成所需的采样次数。相比传统方法,这种方法无需重新训练模型,因此具有更高的实用性和灵活性。
- 其它亮点1. 实验表明,Fast F5-TTS可以在7个采样步骤内完成生成,且推理实时率(RTF)仅为0.030,比原版F5-TTS快4倍,同时保持了相似的音频质量;2. EPSS不仅适用于F5-TTS,还成功应用于E2 TTS模型,展现了其良好的泛化能力;3. 论文未提及数据集细节和代码开源情况,但这为未来的研究提供了明确的方向,例如优化其他TTS模型或探索更高效的采样策略。
- 近期与本研究相关的其他工作包括:1. Voicebox:一种端到端的TTS模型,使用扩散模型生成高质量语音;2. E2 TTS:提出了一种结合能量调节机制的扩散模型,提升了语音合成的效果;3. F5-TTS:通过流匹配技术实现高效语音生成,是本文的基础模型;4. DDIM(Denoising Diffusion Implicit Models):提出了确定性采样路径以加速扩散模型推理。这些研究共同推动了TTS领域的技术创新。
沙发等你来抢
去评论
评论
沙发等你来抢