- 简介我们介绍了LibriTTS-P,这是基于LibriTTS-R的新语料库,包括说话风格的话语级描述(即提示)和说话人特征的说话人级提示。我们采用混合方法构建提示注释:(1)手动注释捕捉人类对说话人特征的感知和(2)关于说话风格的合成注释。与现有的英语提示数据集相比,我们的语料库为LibriTTS-R的所有说话人提供了更多样化的提示注释。基于提示的可控TTS的实验结果表明,使用LibriTTS-P训练的TTS模型比使用传统数据集的模型具有更高的自然度。此外,风格字幕任务的结果表明,利用LibriTTS-P的模型生成的单词比使用传统数据集的模型多2.5倍准确。我们的语料库LibriTTS-P可在https://github.com/line/LibriTTS-P上获得。
- 图表
- 解决问题LibriTTS-P论文旨在解决控制TTS的问题,即如何让用户指定所需的讲话风格和讲话者特征。
- 关键思路LibriTTS-P通过在LibriTTS-R数据集中添加utterance-level描述和speaker-level描述,提供更多样化的提示注释。同时,通过结合手动注释和合成注释的混合方法,构建提示注释。
- 其它亮点实验结果表明,使用LibriTTS-P训练的TTS模型比使用传统数据集训练的模型具有更高的自然度。此外,使用LibriTTS-P的模型在风格字幕任务中生成的单词比使用传统数据集的模型多2.5倍。LibriTTS-P数据集已在GitHub上开源。
- 近期的相关研究包括Style Tokens和Prosody Embeddings等。
沙发等你来抢
去评论
评论
沙发等你来抢