LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning

简介

我们介绍了LibriTTS-P，这是基于LibriTTS-R的新语料库，包括说话风格的话语级描述（即提示）和说话人特征的说话人级提示。我们采用混合方法构建提示注释：（1）手动注释捕捉人类对说话人特征的感知和（2）关于说话风格的合成注释。与现有的英语提示数据集相比，我们的语料库为LibriTTS-R的所有说话人提供了更多样化的提示注释。基于提示的可控TTS的实验结果表明，使用LibriTTS-P训练的TTS模型比使用传统数据集的模型具有更高的自然度。此外，风格字幕任务的结果表明，利用LibriTTS-P的模型生成的单词比使用传统数据集的模型多2.5倍准确。我们的语料库LibriTTS-P可在https://github.com/line/LibriTTS-P上获得。
图表
解决问题

LibriTTS-P论文旨在解决控制TTS的问题，即如何让用户指定所需的讲话风格和讲话者特征。
关键思路

LibriTTS-P通过在LibriTTS-R数据集中添加utterance-level描述和speaker-level描述，提供更多样化的提示注释。同时，通过结合手动注释和合成注释的混合方法，构建提示注释。
其它亮点

实验结果表明，使用LibriTTS-P训练的TTS模型比使用传统数据集训练的模型具有更高的自然度。此外，使用LibriTTS-P的模型在风格字幕任务中生成的单词比使用传统数据集的模型多2.5倍。LibriTTS-P数据集已在GitHub上开源。
相关研究

近期的相关研究包括Style Tokens和Prosody Embeddings等。

LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning

评论