Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens

2025年03月03日
  • 简介
    近期大型语言模型(LLMs)的发展显著推动了零样本文本到语音(TTS)合成的进步。然而,现有的基础模型依赖于多阶段处理或复杂架构来预测多个码本,这限制了效率和集成灵活性。为了解决这些挑战,我们引入了Spark-TTS,这是一个由BiCodec驱动的新型系统,BiCodec是一种单流语音编解码器,它将语音分解为两种互补的令牌类型:用于语言内容的低比特率语义令牌和用于说话人属性的固定长度全局令牌。这种解耦表示结合Qwen2.5大型语言模型和链式思维(CoT)生成方法,不仅实现了粗粒度控制(例如性别、说话风格),还支持细粒度调整(例如精确音高值、说话速度)。为了促进可控TTS的研究,我们推出了VoxBox,这是一个精心策划的10万小时数据集,包含全面的属性标注。大量实验表明,Spark-TTS不仅在零样本声音克隆方面达到了最先进的水平,还能生成高度可定制的声音,超越了基于参考的合成的局限性。源代码、预训练模型和音频样本可在https://github.com/SparkAudio/Spark-TTS获取。
  • 图表
  • 解决问题
    该论文旨在解决现有零样本文本转语音(TTS)系统中存在的效率低下和集成灵活性不足的问题。现有的基础模型依赖于多阶段处理或复杂架构来预测多个码本,这限制了其在实际应用中的性能和灵活性。
  • 关键思路
    论文的关键思路是引入Spark-TTS系统,该系统由BiCodec驱动,这是一种单流语音编解码器,能够将语音分解为两种互补的令牌类型:用于语言内容的低比特率语义令牌和用于说话者属性的固定长度全局令牌。这种解耦表示结合Qwen2.5大语言模型(LLM)和链式思维(CoT)生成方法,使得系统不仅能够进行粗粒度控制(如性别、说话风格),还能进行细粒度调整(如精确音高值、说话速率)。相比当前研究,这种方法简化了架构并提高了效率和灵活性。
  • 其它亮点
    论文的亮点包括:1) 提出了VoxBox,一个精心策划的100,000小时数据集,包含全面的属性标注,以促进可控TTS的研究;2) 实验表明Spark-TTS不仅实现了最先进的零样本语音克隆,还生成了高度可定制的声音,超越了基于参考的合成的局限;3) 提供了源代码、预训练模型和音频样本,方便其他研究人员复现和进一步研究。未来值得深入的工作包括探索更多样化的语音属性和更广泛的跨语言支持。
  • 相关研究
    最近在这个领域中,相关的研究包括:1)《EfficientSpeech: A Lightweight Neural Vocoder for Real-Time Text-to-Speech》;2)《Zero-Shot Voice Conversion from Speech Translation》;3)《Disentangled Representations for Text-to-Speech Synthesis》等。这些研究都在探索如何提高TTS系统的效率和灵活性,但Spark-TTS通过引入BiCodec和CoT方法提供了新的解决方案。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论