Autoregressive Speech Synthesis without Vector Quantization

简介

我们提出了一种新颖的基于连续值记号的语言建模方法 MELLE，用于文本到语音合成（TTS）。MELLE从文本条件直接生成连续的梅尔频谱帧，绕过了最初设计用于音频压缩并在保真度方面牺牲了梅尔频谱的向量量化的需要。具体而言，（i）我们应用回归损失和所提出的频谱通量损失函数来建模连续值记号的概率分布，而不是交叉熵损失。（ii）我们将变分推理纳入 MELLE 中以促进采样机制，从而增强输出多样性和模型的鲁棒性。实验表明，与两阶段编解码语言模型 VALL-E 及其变体相比，单阶段的 MELLE 通过避免采样离散码的固有缺陷，缓解了鲁棒性问题，实现了在多个指标上的优越性能，最重要的是提供了更简洁的范式。请访问 https://aka.ms/melle 以查看我们工作的演示。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决语音合成中的问题，即如何从文本生成高质量的声谱图，同时避免向量量化带来的信息损失。
关键思路

论文提出了一种基于连续值标记的语言模型，称为MELLE，通过回归损失和谱通量损失函数来生成连续的mel-spectrogram帧，避免了向量量化带来的信息损失，并引入变分推理机制以增强输出多样性和模型鲁棒性。
其它亮点

论文通过实验验证了MELLE模型的优越性，相比于现有的两阶段编解码语言模型VALL-E及其变体，MELLE模型避免了采样离散代码带来的鲁棒性问题，并在多个指标上取得了更好的性能表现，同时具有更简单的模型架构。论文还提供了在线演示和开源代码。
相关研究

与该论文相关的研究包括VALL-E、Tacotron、WaveNet等。

Autoregressive Speech Synthesis without Vector Quantization

提问交流

提问交流