CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

2024年07月07日
  • 简介
    近年来,大型语言模型(LLM)基于文本到语音(TTS)的技术因其高自然度和零样本能力而成为主流趋势。在这种模式下,语音信号被离散化为标记序列,由LLM模型生成标记,然后由基于标记的声码器重建为波形。显然,语音标记在LLM TTS模型中起着至关重要的作用。目前的语音标记是以无监督的方式学习的,缺乏明确的语义信息和与文本的对齐。本文提出使用受监督的语义标记来表示语音,这些标记是通过在编码器中插入向量量化从多语言语音识别模型中得出的。基于这些标记,我们进一步提出了一种可扩展的零样本TTS合成器CosyVoice,它由用于文本到标记生成的LLM和用于标记到语音合成的条件流匹配模型组成。实验结果表明,相对于现有的无监督标记,受监督的语义标记在零样本语音克隆的内容一致性和说话人相似性方面有着显著的优势。此外,我们发现利用大规模数据进一步提高了合成性能,表明了CosyVoice的可扩展能力。据我们所知,这是首次尝试将受监督的语音标记引入TTS模型。
  • 图表
  • 解决问题
    本论文试图解决语音合成中语音token缺乏明确语义信息和文本对齐的问题,提出使用受监督的语义token来提升零样本语音克隆的内容一致性和说话人相似度。
  • 关键思路
    本论文的关键思路是使用受监督的语义token来代替当前语音合成中的无监督token,通过将向量量化插入编码器中来获得语义token,并基于这些token构建可扩展的零样本语音合成模型。
  • 其它亮点
    论文实验结果表明,使用受监督的语义token可以显著提高零样本语音克隆的内容一致性和说话人相似度;使用大规模数据可以进一步提升合成性能;论文提出的CosyVoice模型包含LLM和条件流匹配模型,具有可扩展性。论文开源了代码。
  • 相关研究
    最近的相关研究包括《MelGAN-VC: Generative Adversarial Networks for High-Fidelity Speech Synthesis》、《Neural Speech Synthesis with Transformer Network》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论