StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations

简介

本文介绍了一个名为StoryTTS的高度语音合成数据集，其中包含了丰富的语音和文本表达，特别是针对艺术作品的ETTS。我们提出了一个系统和全面的标注框架，用于文本表现力的标注。通过语言学、修辞学等方法，我们分析和定义了StoryTTS中与语音相关的文本表现力，包括五个不同的维度。然后，我们使用大型语言模型，并通过一些手动注释示例进行批量注释。结果得到了61小时连续且高度韵律的语音，配备准确的文本转录和丰富的文本表现力注释。因此，StoryTTS可以帮助未来的ETTS研究充分挖掘丰富的内在文本和语音特征。实验证明，当集成StoryTTS中的文本标注时，TTS模型可以生成具有改进表现力的语音。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决文本转语音（TTS）中文艺术作品表现力不足的问题，提出了一个包含语音和文本方面丰富表现力的高质量数据集StoryTTS，并提出了一个系统和全面的文本表现力标注框架。
关键思路

论文提出了StoryTTS数据集，并通过大型语言模型和少量手动注释示例进行批注，使TTS模型可以生成具有更好表现力的语音。
其它亮点

StoryTTS数据集包含61小时的高度韵律的语音，具有准确的文本转录和丰富的文本表现力注释，为未来的TTS研究提供了帮助。实验结果表明，将StoryTTS的文本标签与TTS模型集成可以生成具有更好表现力的语音。
相关研究

最近的相关研究包括基于大型语言模型的TTS方法和文本表现力注释方法。

StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations

提问交流

提问交流