- 简介本文介绍了一种基于Diffusion Transformer(DiT)的完全非自回归文本转语音系统F5-TTS。该系统不需要复杂的设计,如持续时间模型、文本编码器和音素对齐,而是将文本输入简单地用填充标记填充到与输入语音相同的长度,然后对语音进行去噪以生成语音,这一方法最初由E2 TTS证明是可行的。然而,E2 TTS的原始设计由于收敛速度慢和鲁棒性低而难以跟随。为了解决这些问题,我们首先使用ConvNeXt对输入进行建模,以改进文本表示,使其易于与语音对齐。我们进一步提出了一种推理时的Sway Sampling策略,显著提高了模型的性能和效率。这种流步采样策略可以轻松应用于现有的基于流匹配的模型,无需重新训练。我们的设计允许更快的训练,并实现了0.15的推理RTF,与最先进的基于扩散的TTS模型相比,有了很大的改进。在公共的100K小时多语言数据集上训练的Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS)表现出高度自然和富有表现力的零-shot能力、无缝的代码切换能力和速度控制效率。Demo样本可以在https://SWivid.github.io/F5-TTS找到。我们发布了所有代码和检查点,以促进社区发展。
- 图表
- 解决问题本文介绍了一种基于Diffusion Transformer(DiT)的全非自回归文本转语音系统F5-TTS。该系统旨在解决文本转语音中复杂设计和低鲁棒性的问题。
- 关键思路F5-TTS的关键思路是使用ConvNeXt对输入文本进行建模,进一步提高文本表示的精度,从而使其易于与语音对齐。此外,作者还提出了一种推理时的Sway Sampling策略,大大提高了模型的性能和效率。
- 其它亮点该系统训练速度较快,推理RTF为0.15,表现出高度自然和表现力强的零-shot能力、无缝的代码切换能力和速度控制效率。作者在公共100K小时多语言数据集上训练了模型,并发布了所有代码和检查点以促进社区发展。
- 在这个领域中,最近的相关研究包括E2 TTS、Glow-TTS、DiffWave等。
沙发等你来抢
去评论
评论
沙发等你来抢