LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning

2024年06月12日
  • 简介
    我们介绍了LibriTTS-P,这是基于LibriTTS-R的新语料库,包括说话风格的话语级描述(即提示)和说话人特征的说话人级提示。我们采用混合方法构建提示注释:(1)手动注释捕捉人类对说话人特征的感知和(2)关于说话风格的合成注释。与现有的英语提示数据集相比,我们的语料库为LibriTTS-R的所有说话人提供了更多样化的提示注释。基于提示的可控TTS的实验结果表明,使用LibriTTS-P训练的TTS模型比使用传统数据集的模型具有更高的自然度。此外,风格字幕任务的结果表明,利用LibriTTS-P的模型生成的单词比使用传统数据集的模型多2.5倍准确。我们的语料库LibriTTS-P可在https://github.com/line/LibriTTS-P上获得。
  • 图表
  • 解决问题
    LibriTTS-P论文旨在解决控制TTS的问题,即如何让用户指定所需的讲话风格和讲话者特征。
  • 关键思路
    LibriTTS-P通过在LibriTTS-R数据集中添加utterance-level描述和speaker-level描述,提供更多样化的提示注释。同时,通过结合手动注释和合成注释的混合方法,构建提示注释。
  • 其它亮点
    实验结果表明,使用LibriTTS-P训练的TTS模型比使用传统数据集训练的模型具有更高的自然度。此外,使用LibriTTS-P的模型在风格字幕任务中生成的单词比使用传统数据集的模型多2.5倍。LibriTTS-P数据集已在GitHub上开源。
  • 相关研究
    近期的相关研究包括Style Tokens和Prosody Embeddings等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论