E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

2024年06月26日
  • 简介
    本文介绍了“尴尬易懂文本转语音”(Embarrassingly Easy Text-to-Speech,E2 TTS)——一种完全非自回归零样本文本转语音系统,具有人类级的自然度和最先进的说话人相似度和可懂度。在E2 TTS框架中,文本输入被转换为带有填充符号的字符序列。然后,基于音频填充任务,基于流匹配的Mel频谱生成器被训练。与许多以前的工作不同,它不需要额外的组件(例如持续时间模型,字素到音素)或复杂的技术(例如单调对准搜索)。尽管它的简单性,E2 TTS实现了最先进的零样本TTS能力,可与Voicebox和NaturalSpeech 3等以前的工作相媲美或超越。E2 TTS的简单性也允许在输入表示方面具有灵活性。我们提出了几种E2 TTS的变体,以提高推理过程中的可用性。请参见https://aka.ms/e2tts/以获取演示样本。
  • 图表
  • 解决问题
    论文旨在提出一种全新的非自回归零样本文本到语音系统,以实现人类级别的自然度和最先进的说话人相似度和可懂度。
  • 关键思路
    E2 TTS框架将文本输入转换为填充标记的字符序列,然后基于音频填充任务训练基于流匹配的梅尔频谱图生成器。相比之前的工作,E2 TTS不需要额外的组件或复杂技术,但实现了与之前的工作相当甚至超过之前工作的最先进的零样本TTS能力。
  • 其它亮点
    论文提出了几种E2 TTS变体以提高推理期间的可用性。在https://aka.ms/e2tts/上提供了演示样本。实验使用了多个数据集,包括LJSpeech、Blizzard2012、VCTK、LibriTTS等,并取得了较好的效果。论文的代码已经开源。
  • 相关研究
    最近的相关研究包括:Voicebox、NaturalSpeech 3等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论