An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis

2024年03月19日
  • 简介
    语音语言模型(LM)通过上下文学习为高质量的语音合成提供了前景。典型的语音LM以离散的语义单元作为内容,以短语音作为提示,并合成语音,保留内容的语义,但模仿提示的风格。然而,对于合成音频如何受提示和内容控制,我们缺乏系统的理解。在这项工作中,我们对广泛使用的自回归(AR)和非自回归(NAR)语音LM进行了实证研究,并提供了有关提示设计和内容语义单元的见解。我们的分析揭示了异构和非平稳提示与之前的发现相反,较长的提示并不总是导致更好的合成,反而会损害音频质量。此外,我们发现合成音频的说话者风格除了提示外还受到内容的影响。我们进一步展示了语义单元携带着丰富的声学信息,如音高、速度、音量和语音强调,这些信息可能从内容泄漏到合成音频中。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在对自回归(AR)和非自回归(NAR)语音语言模型进行实证研究,并提供有关提示设计和内容语义单位的见解。
  • 关键思路
    研究发现,与先前的研究不同,异构和非平稳提示会损害音频质量。此外,内容对合成音频的说话人风格也有影响。语义单位携带丰富的声学信息,例如音高、速度、音量和语音强调等。
  • 其它亮点
    论文使用自回归(AR)和非自回归(NAR)语音语言模型进行实证研究,并提供了提示设计和内容语义单位的见解。研究发现,异构和非平稳提示会损害音频质量,而语义单位携带丰富的声学信息。
  • 相关研究
    最近的相关研究包括“Flowtron: An Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis”和“Non-Autoregressive Neural Text-to-Speech”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问