SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation

2024年01月24日
  • 简介
    由于有效的语音建模,当前的语音大语言模型(SLLM)在上下文语音生成和对未知说话者的高效泛化方面表现出了非凡的能力。然而,目前的信息建模过程存在某些冗余,导致语音生成效率低下。我们提出了信息链生成(CoIG)方法,用于在大规模语音生成中解耦语义和感知信息。在此基础上,我们开发了SpeechGPT-Gen,一个8亿参数的SLLM,它在语义和感知信息建模方面非常高效。它包括一个基于LLM的自回归模型,用于语义信息建模,以及一个使用流匹配的非自回归模型,用于感知信息建模。此外,我们引入了将语义信息注入先验分布的新方法,以增强流匹配的效率。广泛的实验结果表明,SpeechGPT-Gen在零样本文本转语音、零样本语音转换和语音对话方面表现出色,突显了CoIG在捕捉和建模语音的语义和感知维度方面的非凡能力。代码和模型可在https://github.com/0nutation/SpeechGPT上获得。
  • 图表
  • 解决问题
    论文旨在解决语音生成中信息建模的冗余问题,提出了一种新方法Chain-of-Information Generation(CoIG),并开发了一个8亿参数的SLLM SpeechGPT-Gen来有效地对语义和感知信息进行建模。
  • 关键思路
    CoIG方法将语义和感知信息解耦,SpeechGPT-Gen采用基于LLM的自回归模型进行语义信息建模,采用非自回归模型和流匹配进行感知信息建模,并引入将语义信息融入先验分布以提高流匹配效率的新方法。
  • 其它亮点
    论文在零样本文本转语音、零样本语音转换和语音对话等方面表现出色,证明了CoIG方法在捕捉和建模语音的语义和感知维度方面的出色表现。研究使用的数据集和代码均已开源。
  • 相关研究
    近期相关研究包括:1. Tacotron 2: Generating Human-like Speech from Text;2. MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论