在Interspeech的SLIMTS2020 Workshop上,滴滴联合天津大学和杜克昆山大学公开了DidiSpeech的语音开源数据库,第一批开放数据为500人,时长60余小时的语音数据(总数据库为超过6000名说话人录制的近800小时的语音数据)

DidiSpeech是一个针对中文个性化语音合成任务的大规模数据库。该数据库提供了由超过6000名说话人录制的近800小时的语音数据。此次第一批开放数据为500人,时长60余小时的语音数据。

数据库中所有的音频均由说话人使用手机在安静环境中录制,具有较高的语音质量。同时,数据库中的说话人在性别、年龄以及地域等方面分布均匀,具有充足的多样性。在录制文本的设计上,数据库分别设计了平行文本与非平行文本,以确保在音色转换、多说话人语音合成等任务上数据的高度可用。此外,所有录制文本提供了注音标注。

arXiv链接: https://arxiv.org/abs/2010.09275 部分合成样音可参见: https://athena-team.github.io/DiDiSpeech/

滴滴盖亚数据开放平台 https://outreach.didichuxing.com/research/opendata/

内容中包含的图片若涉及版权问题,请及时与我们联系删除