- 简介本文介绍了一种名为“尴尬易懂文本转语音”(Embarrassingly Easy Text-to-Speech,E2 TTS)的全非自回归零样本文本转语音系统,该系统具有人类级自然度和最先进的说话人相似度和可懂度。在E2 TTS框架中,文本输入被转换为带有填充符的字符序列。然后,基于音频填充任务,基于流匹配的梅尔频谱生成器被训练。与许多先前的工作不同,它不需要额外的组件(例如,持续时间模型,字素到音素)或复杂的技术(例如,单调对齐搜索)。尽管其简单性,E2 TTS实现了最先进的零样本TTS功能,这些功能与Voicebox和NaturalSpeech 3等先前的工作相当或超过。E2 TTS的简单性也允许在输入表示方面具有灵活性。我们提出了几种E2 TTS的变体以提高推理过程中的可用性。请参见https://aka.ms/e2tts/以获取演示样本。
- 图表
- 解决问题E2 TTS旨在提供一种全新的、非自回归的零样本文本转语音系统,实现人类级别的自然度和最先进的说话人相似度和可懂度。
- 关键思路E2 TTS框架将文本输入转换为带有填充标记的字符序列,然后基于音频填充任务训练基于流匹配的Mel频谱发生器,不需要额外的组件或复杂的技术,即可实现零样本TTS的最先进性能。
- 其它亮点E2 TTS不需要额外的组件或复杂的技术,实现了与先前工作相媲美或超越先前工作的最先进零样本TTS能力,包括Voicebox和NaturalSpeech 3。E2 TTS的简单性还允许灵活处理输入表示。论文提出了几种E2 TTS的变体以改善推理的可用性。
- 与E2 TTS相关的最近研究包括:1. VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking; 2. Flowtron: An Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis; 3. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis。
沙发等你来抢
去评论
评论
沙发等你来抢