F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

2024年10月09日
  • 简介
    本文介绍了一种基于Diffusion Transformer(DiT)的完全非自回归文本转语音系统F5-TTS。该系统不需要复杂的设计,如持续时间模型、文本编码器和音素对齐,而是将文本输入简单地用填充标记填充到与输入语音相同的长度,然后对语音进行去噪以生成语音,这一方法最初由E2 TTS证明是可行的。然而,E2 TTS的原始设计由于收敛速度慢和鲁棒性低而难以跟随。为了解决这些问题,我们首先使用ConvNeXt对输入进行建模,以改进文本表示,使其易于与语音对齐。我们进一步提出了一种推理时的Sway Sampling策略,显著提高了模型的性能和效率。这种流步采样策略可以轻松应用于现有的基于流匹配的模型,无需重新训练。我们的设计允许更快的训练,并实现了0.15的推理RTF,与最先进的基于扩散的TTS模型相比,有了很大的改进。在公共的100K小时多语言数据集上训练的Fairytaler Fakes Fluent and Faithful speech with Flow matching (F5-TTS)表现出高度自然和富有表现力的零-shot能力、无缝的代码切换能力和速度控制效率。Demo样本可以在https://SWivid.github.io/F5-TTS找到。我们发布了所有代码和检查点,以促进社区发展。
  • 图表
  • 解决问题
    本文介绍了一种基于Diffusion Transformer(DiT)的全非自回归文本转语音系统F5-TTS。该系统旨在解决文本转语音中复杂设计和低鲁棒性的问题。
  • 关键思路
    F5-TTS的关键思路是使用ConvNeXt对输入文本进行建模,进一步提高文本表示的精度,从而使其易于与语音对齐。此外,作者还提出了一种推理时的Sway Sampling策略,大大提高了模型的性能和效率。
  • 其它亮点
    该系统训练速度较快,推理RTF为0.15,表现出高度自然和表现力强的零-shot能力、无缝的代码切换能力和速度控制效率。作者在公共100K小时多语言数据集上训练了模型,并发布了所有代码和检查点以促进社区发展。
  • 相关研究
    在这个领域中,最近的相关研究包括E2 TTS、Glow-TTS、DiffWave等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论