Natural language guidance of high-fidelity text-to-speech with synthetic annotations

简介

我们提供了一种可扩展的方法来标记说话者身份、风格和录音条件的各个方面，从而弥合了两种方法之间的差距。我们使用这种方法来处理一个45k小时的数据集，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于发现的数据，但表现显著优于最近的工作。我们的结果展示了高保真度的语音生成，涵盖了多种口音、语调风格、声道条件和声学条件，所有这些都是由单一模型和直观的自然语言条件控制实现的。可以在 https://text-description-to-speech.com/ 上听取音频样本。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决语音合成中控制说话人身份和风格的问题，同时避免依赖于人工标注的描述，从而实现可扩展性。
关键思路

论文提出了一种可扩展的标记方法，用于标记说话人身份、风格和录音条件的各个方面，并将其应用于训练语音语言模型，从而实现自然语言提示下的说话人身份和风格控制。
其它亮点

论文使用了一个45k小时的数据集，提出了提高音频保真度的简单方法，在多种方言、韵律风格、通道条件和声学条件下实现了高保真度的语音生成。
相关研究

最近的相关研究包括使用大规模数据集训练的语音合成模型，以及使用自然语言提示控制说话人身份和风格的方法。

Natural language guidance of high-fidelity text-to-speech with synthetic annotations

提问交流

提问交流