MSceneSpeech: A Multi-Scene Speech Dataset For Expressive Speech Synthesis

简介

我们介绍了一个开源的高质量普通话TTS数据集MSceneSpeech（多场景语音数据集），旨在为表现性语音合成提供资源。MSceneSpeech包括许多按照日常生活场景表演和录制的音频记录和文本。每个场景都包括多个说话者和多样化的韵律风格，适合进行多说话者风格和韵律建模的语音合成。我们通过提示机制建立了一个强大的基线，可以有效地合成具有用户特定音色和场景特定韵律的任意文本输入的语音。开源的MSceneSpeech数据集和我们基线的音频样本可在https://speechai-demo.github.io/MSceneSpeech/上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提供一个高质量的中文TTS数据集，以便为表现力语音合成提供资源。该数据集包含多个场景下的多个演讲者的音频录制和文本，适合进行多说话人风格和韵律建模的语音合成。
关键思路

通过提示机制，建立了一个强大的基准模型，可以有效地合成具有用户特定音色和场景特定韵律的任意文本输入的语音。
其它亮点

该数据集和基准模型的音频样本都是开源的，可以在https://speechai-demo.github.io/MSceneSpeech/上获取。实验设计充分，使用了多个场景和演讲者，为表现力语音合成提供了更多的挑战。值得进一步研究的工作包括将该方法应用于其他语言和更广泛的场景。
相关研究

最近的相关研究包括《中文情感语音数据集的建立与情感合成研究》、《基于深度学习的中文语音合成研究》等。

MSceneSpeech: A Multi-Scene Speech Dataset For Expressive Speech Synthesis

提问交流

提问交流