An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis

简介

语音语言模型（LM）通过上下文学习为高质量的语音合成提供了前景。典型的语音LM以离散的语义单元作为内容，以短语音作为提示，并合成语音，保留内容的语义，但模仿提示的风格。然而，对于合成音频如何受提示和内容控制，我们缺乏系统的理解。在这项工作中，我们对广泛使用的自回归（AR）和非自回归（NAR）语音LM进行了实证研究，并提供了有关提示设计和内容语义单元的见解。我们的分析揭示了异构和非平稳提示与之前的发现相反，较长的提示并不总是导致更好的合成，反而会损害音频质量。此外，我们发现合成音频的说话者风格除了提示外还受到内容的影响。我们进一步展示了语义单元携带着丰富的声学信息，如音高、速度、音量和语音强调，这些信息可能从内容泄漏到合成音频中。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在对自回归（AR）和非自回归（NAR）语音语言模型进行实证研究，并提供有关提示设计和内容语义单位的见解。
关键思路

研究发现，与先前的研究不同，异构和非平稳提示会损害音频质量。此外，内容对合成音频的说话人风格也有影响。语义单位携带丰富的声学信息，例如音高、速度、音量和语音强调等。
其它亮点

论文使用自回归（AR）和非自回归（NAR）语音语言模型进行实证研究，并提供了提示设计和内容语义单位的见解。研究发现，异构和非平稳提示会损害音频质量，而语义单位携带丰富的声学信息。
相关研究

最近的相关研究包括“Flowtron: An Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis”和“Non-Autoregressive Neural Text-to-Speech”。

An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis

提问交流

提问交流