E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

简介

本文介绍了“尴尬易懂文本转语音”（Embarrassingly Easy Text-to-Speech，E2 TTS）——一种完全非自回归零样本文本转语音系统，具有人类级的自然度和最先进的说话人相似度和可懂度。在E2 TTS框架中，文本输入被转换为带有填充符号的字符序列。然后，基于音频填充任务，基于流匹配的Mel频谱生成器被训练。与许多以前的工作不同，它不需要额外的组件（例如持续时间模型，字素到音素）或复杂的技术（例如单调对准搜索）。尽管它的简单性，E2 TTS实现了最先进的零样本TTS能力，可与Voicebox和NaturalSpeech 3等以前的工作相媲美或超越。E2 TTS的简单性也允许在输入表示方面具有灵活性。我们提出了几种E2 TTS的变体，以提高推理过程中的可用性。请参见https://aka.ms/e2tts/以获取演示样本。
图表
解决问题

论文旨在提出一种全新的非自回归零样本文本到语音系统，以实现人类级别的自然度和最先进的说话人相似度和可懂度。
关键思路

E2 TTS框架将文本输入转换为填充标记的字符序列，然后基于音频填充任务训练基于流匹配的梅尔频谱图生成器。相比之前的工作，E2 TTS不需要额外的组件或复杂技术，但实现了与之前的工作相当甚至超过之前工作的最先进的零样本TTS能力。
其它亮点

论文提出了几种E2 TTS变体以提高推理期间的可用性。在https://aka.ms/e2tts/上提供了演示样本。实验使用了多个数据集，包括LJSpeech、Blizzard2012、VCTK、LibriTTS等，并取得了较好的效果。论文的代码已经开源。
相关研究

最近的相关研究包括：Voicebox、NaturalSpeech 3等。

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

评论