CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

2024年07月07日
  • 简介
    近年来,大型语言模型(LLM)的基于文本生成语音(TTS)因其高自然度和零样本能力而成为主流趋势。在这种模式下,语音信号被离散化成令牌序列,由LLM以文本为提示进行建模,并由基于令牌的声码器重构成波形。显然,语音令牌在基于LLM的TTS模型中起着关键作用。目前的语音令牌是以无监督的方式学习的,缺乏明确的语义信息和对齐文本的能力。本文提出使用受监督的语义令牌来表示语音,这些令牌是通过在编码器中插入矢量量化从多语言语音识别模型中得出的。基于这些令牌,我们进一步提出了一种可扩展的零样本TTS合成器CosyVoice,它由一个LLM用于文本到令牌的生成和一个条件流匹配模型用于令牌到语音的合成。实验结果表明,相对于现有的无监督令牌,受监督的语义令牌在内容一致性和说话人相似性方面显著优于它们,适用于零样本语音克隆。此外,我们发现利用大规模数据进一步提高了合成性能,表明CosyVoice的可扩展能力。据我们所知,这是首次尝试将受监督的语音令牌引入TTS模型中。
  • 图表
  • 解决问题
    本文旨在提出一种新的语音表示方法,解决当前语音生成模型中无法处理文本和语音之间对齐的问题。
  • 关键思路
    本文提出了一种基于监督语义标记的语音表示方法,通过将向量量化插入编码器中,从多语种语音识别模型中提取监督语义标记。在此基础上,提出了一种零样本语音合成器CosyVoice,它由一个文本到标记的LMM和一个标记到语音的条件流匹配模型组成。
  • 其它亮点
    实验结果表明,与现有的无监督语音标记相比,监督语义标记在内容一致性和说话人相似度方面具有显著优势,特别是在零样本语音克隆方面。此外,本文还发现,利用大规模数据可以进一步提高合成性能,这表明CosyVoice具有可扩展的能力。
  • 相关研究
    在语音生成领域,最近一些相关的研究包括:《MelGAN-VC:一种简单的有效的多说话人声音转换器》、《高效的神经语音合成器通过自适应信号表征》、《Hi-Fi-GAN:高保真语音合成的生成对抗网络》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论