E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

2024年06月26日
  • 简介
    本文介绍了一种名为“尴尬易懂文本转语音”(Embarrassingly Easy Text-to-Speech,E2 TTS)的全非自回归零样本文本转语音系统,该系统具有人类级自然度和最先进的说话人相似度和可懂度。在E2 TTS框架中,文本输入被转换为带有填充符的字符序列。然后,基于音频填充任务,基于流匹配的梅尔频谱生成器被训练。与许多先前的工作不同,它不需要额外的组件(例如,持续时间模型,字素到音素)或复杂的技术(例如,单调对齐搜索)。尽管其简单性,E2 TTS实现了最先进的零样本TTS功能,这些功能与Voicebox和NaturalSpeech 3等先前的工作相当或超过。E2 TTS的简单性也允许在输入表示方面具有灵活性。我们提出了几种E2 TTS的变体以提高推理过程中的可用性。请参见https://aka.ms/e2tts/以获取演示样本。
  • 图表
  • 解决问题
    E2 TTS旨在提供一种全新的、非自回归的零样本文本转语音系统,实现人类级别的自然度和最先进的说话人相似度和可懂度。
  • 关键思路
    E2 TTS框架将文本输入转换为带有填充标记的字符序列,然后基于音频填充任务训练基于流匹配的Mel频谱发生器,不需要额外的组件或复杂的技术,即可实现零样本TTS的最先进性能。
  • 其它亮点
    E2 TTS不需要额外的组件或复杂的技术,实现了与先前工作相媲美或超越先前工作的最先进零样本TTS能力,包括Voicebox和NaturalSpeech 3。E2 TTS的简单性还允许灵活处理输入表示。论文提出了几种E2 TTS的变体以改善推理的可用性。
  • 相关研究
    与E2 TTS相关的最近研究包括:1. VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking; 2. Flowtron: An Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis; 3. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论