E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

向作者提问

NEW

简介

本文介绍了一种名为“尴尬易懂文本转语音”（Embarrassingly Easy Text-to-Speech，E2 TTS）的全非自回归零样本文本转语音系统，该系统具有人类级自然度和最先进的说话人相似度和可懂度。在E2 TTS框架中，文本输入被转换为带有填充符的字符序列。然后，基于音频填充任务，基于流匹配的梅尔频谱生成器被训练。与许多先前的工作不同，它不需要额外的组件（例如，持续时间模型，字素到音素）或复杂的技术（例如，单调对齐搜索）。尽管其简单性，E2 TTS实现了最先进的零样本TTS功能，这些功能与Voicebox和NaturalSpeech 3等先前的工作相当或超过。E2 TTS的简单性也允许在输入表示方面具有灵活性。我们提出了几种E2 TTS的变体以提高推理过程中的可用性。请参见https://aka.ms/e2tts/以获取演示样本。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

E2 TTS旨在提供一种全新的、非自回归的零样本文本转语音系统，实现人类级别的自然度和最先进的说话人相似度和可懂度。
关键思路

E2 TTS框架将文本输入转换为带有填充标记的字符序列，然后基于音频填充任务训练基于流匹配的Mel频谱发生器，不需要额外的组件或复杂的技术，即可实现零样本TTS的最先进性能。
其它亮点

E2 TTS不需要额外的组件或复杂的技术，实现了与先前工作相媲美或超越先前工作的最先进零样本TTS能力，包括Voicebox和NaturalSpeech 3。E2 TTS的简单性还允许灵活处理输入表示。论文提出了几种E2 TTS的变体以改善推理的可用性。
相关研究

与E2 TTS相关的最近研究包括：1. VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking; 2. Flowtron: An Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis; 3. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问