Natural language guidance of high-fidelity text-to-speech with synthetic annotations

2024年02月02日
  • 简介
    我们提供了一种可扩展的方法来标记说话者身份、风格和录音条件的各个方面,从而弥合了两种方法之间的差距。我们使用这种方法来处理一个45k小时的数据集,用于训练语音语言模型。此外,我们提出了简单的方法来增加音频保真度,尽管完全依赖于发现的数据,但表现显著优于最近的工作。我们的结果展示了高保真度的语音生成,涵盖了多种口音、语调风格、声道条件和声学条件,所有这些都是由单一模型和直观的自然语言条件控制实现的。可以在 https://text-description-to-speech.com/ 上听取音频样本。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决语音合成中控制说话人身份和风格的问题,同时避免依赖于人工标注的描述,从而实现可扩展性。
  • 关键思路
    论文提出了一种可扩展的标记方法,用于标记说话人身份、风格和录音条件的各个方面,并将其应用于训练语音语言模型,从而实现自然语言提示下的说话人身份和风格控制。
  • 其它亮点
    论文使用了一个45k小时的数据集,提出了提高音频保真度的简单方法,在多种方言、韵律风格、通道条件和声学条件下实现了高保真度的语音生成。
  • 相关研究
    最近的相关研究包括使用大规模数据集训练的语音合成模型,以及使用自然语言提示控制说话人身份和风格的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问