StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations

IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024, pp. 11521-11525
2024年04月23日
  • 简介
    本文介绍了一个名为StoryTTS的高度语音合成数据集,其中包含了丰富的语音和文本表达,特别是针对艺术作品的ETTS。我们提出了一个系统和全面的标注框架,用于文本表现力的标注。通过语言学、修辞学等方法,我们分析和定义了StoryTTS中与语音相关的文本表现力,包括五个不同的维度。然后,我们使用大型语言模型,并通过一些手动注释示例进行批量注释。结果得到了61小时连续且高度韵律的语音,配备准确的文本转录和丰富的文本表现力注释。因此,StoryTTS可以帮助未来的ETTS研究充分挖掘丰富的内在文本和语音特征。实验证明,当集成StoryTTS中的文本标注时,TTS模型可以生成具有改进表现力的语音。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决文本转语音(TTS)中文艺术作品表现力不足的问题,提出了一个包含语音和文本方面丰富表现力的高质量数据集StoryTTS,并提出了一个系统和全面的文本表现力标注框架。
  • 关键思路
    论文提出了StoryTTS数据集,并通过大型语言模型和少量手动注释示例进行批注,使TTS模型可以生成具有更好表现力的语音。
  • 其它亮点
    StoryTTS数据集包含61小时的高度韵律的语音,具有准确的文本转录和丰富的文本表现力注释,为未来的TTS研究提供了帮助。实验结果表明,将StoryTTS的文本标签与TTS模型集成可以生成具有更好表现力的语音。
  • 相关研究
    最近的相关研究包括基于大型语言模型的TTS方法和文本表现力注释方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问