- 简介我们提供了一种可扩展的方法来标记说话者身份、风格和录音条件的各个方面,从而弥合了两种方法之间的差距。我们使用这种方法来处理一个45k小时的数据集,用于训练语音语言模型。此外,我们提出了简单的方法来增加音频保真度,尽管完全依赖于发现的数据,但表现显著优于最近的工作。我们的结果展示了高保真度的语音生成,涵盖了多种口音、语调风格、声道条件和声学条件,所有这些都是由单一模型和直观的自然语言条件控制实现的。可以在 https://text-description-to-speech.com/ 上听取音频样本。
-
- 图表
- 解决问题论文旨在解决语音合成中控制说话人身份和风格的问题,同时避免依赖于人工标注的描述,从而实现可扩展性。
- 关键思路论文提出了一种可扩展的标记方法,用于标记说话人身份、风格和录音条件的各个方面,并将其应用于训练语音语言模型,从而实现自然语言提示下的说话人身份和风格控制。
- 其它亮点论文使用了一个45k小时的数据集,提出了提高音频保真度的简单方法,在多种方言、韵律风格、通道条件和声学条件下实现了高保真度的语音生成。
- 最近的相关研究包括使用大规模数据集训练的语音合成模型,以及使用自然语言提示控制说话人身份和风格的方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流