F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

简介

本文介绍了一种基于Diffusion Transformer（DiT）的完全非自回归文本转语音系统F5-TTS。该系统不需要复杂的设计，如持续时间模型、文本编码器和音素对齐，而是将文本输入简单地用填充标记填充到与输入语音相同的长度，然后对语音进行去噪以生成语音，这一方法最初由E2 TTS证明是可行的。然而，E2 TTS的原始设计由于收敛速度慢和鲁棒性低而难以跟随。为了解决这些问题，我们首先使用ConvNeXt对输入进行建模，以改进文本表示，使其易于与语音对齐。我们进一步提出了一种推理时的Sway Sampling策略，显著提高了模型的性能和效率。这种流步采样策略可以轻松应用于现有的基于流匹配的模型，无需重新训练。我们的设计允许更快的训练，并实现了0.15的推理RTF，与最先进的基于扩散的TTS模型相比，有了很大的改进。在公共的100K小时多语言数据集上训练的Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS)表现出高度自然和富有表现力的零-shot能力、无缝的代码切换能力和速度控制效率。Demo样本可以在https://SWivid.github.io/F5-TTS找到。我们发布了所有代码和检查点，以促进社区发展。
图表
解决问题

本文介绍了一种基于Diffusion Transformer（DiT）的全非自回归文本转语音系统F5-TTS。该系统旨在解决文本转语音中复杂设计和低鲁棒性的问题。
关键思路

F5-TTS的关键思路是使用ConvNeXt对输入文本进行建模，进一步提高文本表示的精度，从而使其易于与语音对齐。此外，作者还提出了一种推理时的Sway Sampling策略，大大提高了模型的性能和效率。
其它亮点

该系统训练速度较快，推理RTF为0.15，表现出高度自然和表现力强的零-shot能力、无缝的代码切换能力和速度控制效率。作者在公共100K小时多语言数据集上训练了模型，并发布了所有代码和检查点以促进社区发展。
相关研究

在这个领域中，最近的相关研究包括E2 TTS、Glow-TTS、DiffWave等。

F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

评论