Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

2024年06月04日
  • 简介
    我们介绍了Seed-TTS,这是一种大规模自回归文本转语音(TTS)模型家族,能够生成几乎无法区分人类语音的语音。Seed-TTS作为语音生成的基础模型,在语音上下文学习方面表现出色,在主观和客观评估中,达到了与真实人类语音相匹配的说话人相似度和自然度表现。通过微调,我们在这些度量标准上实现了更高的主观评分。Seed-TTS在各种语音属性方面具有优越的可控性,如情感,并能够为野外演讲者生成高度表现力和多样化的语音。此外,我们提出了一种语音因子分解的自我蒸馏方法,以及一种增强模型鲁棒性、说话人相似度和可控性的强化学习方法。我们还提出了Seed-TTS模型的非自回归(NAR)变体,名为$\text{Seed-TTS}_\text{DiT}$,它利用了完全基于扩散的架构。与以前的基于NAR的TTS系统不同,$\text{Seed-TTS}_\text{DiT}$不依赖于预估的音素持续时间,并通过端到端处理执行语音生成。我们证明了这种变体实现了与基于语言模型的变体相当的性能,并展示了它在语音编辑中的有效性。我们鼓励读者在\url{https://bytedancespeech.github.io/seedtts_tech_report}上听取演示。
  • 图表
  • 解决问题
    论文旨在提出一种基于自回归模型的文本到语音生成模型,能够生成与人类语音几乎无法区分的语音,并具有更好的可控性和表现力。
  • 关键思路
    Seed-TTS模型是一种基于自回归模型的文本到语音生成模型,利用自我蒸馏和强化学习方法提高模型的鲁棒性、说话人相似度和可控性。同时,论文还提出了一种不依赖于预估音素持续时间的基于扩散的非自回归模型Seed-TTS_DiT。
  • 其它亮点
    论文提出的Seed-TTS模型在可控性、自然度和说话人相似度等方面表现优异,并通过自我蒸馏和强化学习方法进一步提高了模型性能。同时,论文还提出了一种不依赖于预估音素持续时间的基于扩散的非自回归模型Seed-TTS_DiT,能够实现端到端的语音生成和编辑。论文还提供了开源代码和数据集。
  • 相关研究
    最近的相关研究包括WaveNet、Tacotron、FastSpeech等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论