NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

2024年03月05日
  • 简介
    虽然最近的大规模文本转语音(TTS)模型取得了显著进展,但它们在语音质量、相似度和韵律方面仍存在不足。考虑到语音包含多种属性(例如内容、韵律、音色和声学细节),这些属性对于生成来说具有重大挑战,因此自然的想法是将语音分解为代表不同属性的单独子空间,并分别生成它们。受此启发,我们提出了NaturalSpeech 3,这是一个TTS系统,具有新颖的分解扩散模型,可以以零样本的方式生成自然语音。具体来说,1)我们设计了一个具有分解向量量化(FVQ)的神经编解码器,将语音波形分解为内容、韵律、音色和声学细节的子空间;2)我们提出了一个分解扩散模型,根据其相应的提示生成每个子空间中的属性。通过这种分解设计,NaturalSpeech 3可以以分而治之的方式有效地、高效地建模复杂的语音。实验表明,NaturalSpeech 3在质量、相似度、韵律和可懂性方面优于最先进的TTS系统,并且与人类录音具有相当的质量。此外,我们通过扩展到10亿个参数和20万小时的训练数据来实现更好的性能。
  • 解决问题
    NaturalSpeech 3试图解决语音合成中语音质量、相似度和韵律等方面的问题,通过将语音分解为不同的子空间来实现更好的生成。
  • 关键思路
    NaturalSpeech 3采用了分解扩散模型来将语音分解为内容、韵律、音色和声学细节等子空间,然后根据不同的提示生成不同的属性,从而有效地解决了语音合成中的复杂性问题。
  • 其它亮点
    论文在多个方面取得了优异的表现,包括语音质量、相似度、韵律和可懂性等方面,与人类录音相当。此外,论文还通过使用1B参数和200K小时的训练数据来进一步提高性能,并提供了开源代码。
  • 相关研究
    在这个领域中,还有一些相关的研究,如Parallel WaveGAN、MelGAN、HiFi-GAN等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论