Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation

2024年07月07日
  • 简介
    最近,语音生成模型通过使用大规模的训练数据取得了显著进展。然而,由于缺乏大规模、多样化和自然的语音数据,研究界难以产生高度自发和类人的语音。本文介绍了\textit{Emilia},第一个来自野外语音数据的多语言语音生成数据集,以及Emilia-Pipe,第一个开源的预处理流水线,旨在将野外语音数据转换为具有语音生成注释的高质量训练数据。Emilia从六种语言中的超过101k小时的语音开始,具有不同的语音风格和多样性。为了促进Emilia的扩展,开源流水线Emilia-Pipe可以在几分钟内处理一小时的原始语音数据,使研究界能够合作进行大规模语音生成研究。实验结果验证了Emilia的有效性。演示可在以下网址找到:https://emilia-dataset.github.io/Emilia-Demo-Page/。
  • 图表
  • 解决问题
    本文试图解决语音生成模型中缺乏大规模、多样化、自然流畅的语音数据集的问题,并提出了Emilia数据集和Emilia-Pipe预处理流程。
  • 关键思路
    Emilia数据集是第一个从自然环境中采集的多语言语音生成数据集,Emilia-Pipe是一个开源的预处理流程,可以将原始语音数据转化为高质量的训练数据,为大规模语音生成研究提供了便利。
  • 其它亮点
    Emilia数据集包含六种语言的超过101k小时的语音数据,具有不同的语音风格和多样性。Emilia-Pipe可以快速处理原始语音数据,为模型训练提供高质量的注释数据。实验结果验证了Emilia数据集的有效性。研究者可以在https://emilia-dataset.github.io/Emilia-Demo-Page/上查看演示,并可以使用开源代码进行进一步研究。
  • 相关研究
    近期的相关研究包括:1.《The LJ Speech Dataset》;2.《Common Voice: A Massively-Multilingual Speech Corpus》;3.《VoxCeleb2: Deep Speaker Recognition》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论