- 简介本文介绍了一个名为StoryTTS的高度语音合成数据集,其中包含了丰富的语音和文本表达,特别是针对艺术作品的ETTS。我们提出了一个系统和全面的标注框架,用于文本表现力的标注。通过语言学、修辞学等方法,我们分析和定义了StoryTTS中与语音相关的文本表现力,包括五个不同的维度。然后,我们使用大型语言模型,并通过一些手动注释示例进行批量注释。结果得到了61小时连续且高度韵律的语音,配备准确的文本转录和丰富的文本表现力注释。因此,StoryTTS可以帮助未来的ETTS研究充分挖掘丰富的内在文本和语音特征。实验证明,当集成StoryTTS中的文本标注时,TTS模型可以生成具有改进表现力的语音。
-
- 图表
- 解决问题本论文旨在解决文本转语音(TTS)中文艺术作品表现力不足的问题,提出了一个包含语音和文本方面丰富表现力的高质量数据集StoryTTS,并提出了一个系统和全面的文本表现力标注框架。
- 关键思路论文提出了StoryTTS数据集,并通过大型语言模型和少量手动注释示例进行批注,使TTS模型可以生成具有更好表现力的语音。
- 其它亮点StoryTTS数据集包含61小时的高度韵律的语音,具有准确的文本转录和丰富的文本表现力注释,为未来的TTS研究提供了帮助。实验结果表明,将StoryTTS的文本标签与TTS模型集成可以生成具有更好表现力的语音。
- 最近的相关研究包括基于大型语言模型的TTS方法和文本表现力注释方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流