- 简介笑声、叹息、结巴等语音语调等形式并不直接贡献词汇意义,但它们提供了关键的命题背景,有助于语义和语用过程,如讽刺。因此,对于人工社交代理来说,理解和能够生成具有语义重要性的语音语调都很重要。大多数语音数据集不包括转录的非词汇语音声音和语言障碍,而那些包括的通常是多说话者数据集,每个说话者提供的音频相对较少。这使得训练包括这些语言语调成分的对话文本到语音(TTS)合成模型具有挑战性。因此,我们介绍了DisfluencySpeech,这是一个带有语言语调的工作室质量标记的英语语音数据集。一个说话者重现了Switchboard-1电话语音语料库(Switchboard)中近10小时的表达性话语,模拟了现实的非正式对话。为了帮助开发能够从文本预测性地合成语言语调而不需要这些成分的TTS模型,我们提供了三种不同级别的信息删除的转录(删除非语音事件、删除非句子元素和删除虚假开始),以及在每个级别上训练的基准TTS模型。
- 图表
- 解决问题论文旨在解决如何训练包含语音非词汇成分(如笑声和口吃)的文本转语音合成模型的问题。现有的语音数据集很少包含这些非词汇成分,使得训练这样的模型变得困难。
- 关键思路论文提出了DisfluencySpeech数据集,其中包含一个演讲者模拟了近10小时的Switchboard电话语音语料库中的非正式对话,同时提供了三个不同级别的文本转换,以帮助开发能够从文本预测性地合成语音非词汇成分的TTS模型。
- 其它亮点该数据集是高质量的英语语音数据集,具有语音非词汇成分,可用于训练TTS模型。论文提供了三个不同级别的文本转换,以帮助开发能够从文本预测性地合成语音非词汇成分的TTS模型。作者还提供了基准TTS模型,以便研究人员可以比较其模型的性能。
- 最近的相关研究包括使用迁移学习来改进TTS模型的研究,以及使用深度学习来合成语音的研究。
沙发等你来抢
去评论
评论
沙发等你来抢