- 简介本文介绍了一种基于流匹配和扩散变压器(DiT)的全非自回归文本到语音系统F5-TTS。该系统不需要复杂的设计,如持续时间模型、文本编码器和音素对齐,只需将文本输入用填充标记填充到与输入语音相同的长度,然后进行去噪以生成语音,这一点最初由E2 TTS证明是可行的。然而,E2 TTS的原始设计由于收敛速度慢和鲁棒性低而难以跟随。为了解决这些问题,我们首先使用ConvNeXt对输入进行建模,以精细化文本表示,使其易于与语音对齐。我们进一步提出了一种推理时间的Sway采样策略,显著提高了我们模型的性能和效率。这种流步骤的采样策略可以轻松应用于现有的基于流匹配的模型,无需重新训练。我们的设计允许更快的训练,并实现了0.15的推理RTF,与最先进的基于扩散的TTS模型相比大大改善了性能。在公共的100K小时多语言数据集上训练,我们的Flow匹配的Fairytaler Fakes Fluent and Faithful speech(F5-TTS)表现出高度自然和富有表现力的零样本能力、无缝的代码切换能力和速度控制效率。演示样本可以在https://SWivid.github.io/F5-TTS找到。我们发布所有的代码和检查点,以促进社区发展。
-
- 图表
- 解决问题本论文旨在介绍一种基于流匹配和扩散变压器的完全非自回归文本到语音系统,解决了E2 TTS的收敛速度慢和鲁棒性差的问题。
- 关键思路论文的关键思路是使用ConvNeXt对输入进行建模,进一步提出了一种推理时间的Sway Sampling策略,显著提高了模型的性能和效率。
- 其它亮点论文的亮点包括使用公共100K小时多语言数据集进行训练,展示了高度自然和表现力强的零-shot能力、无缝的代码切换能力和速度控制效率。此外,作者还开源了所有代码和检查点,以促进社区发展。
- 与此相关的研究包括E2 TTS、Diffusion Transformer TTS等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流