NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

2024年03月05日
  • 简介
    虽然最近的大规模文本转语音(TTS)模型取得了显著进展,但它们在语音质量、相似性和韵律方面仍存在不足。考虑到语音包含了各种属性(例如内容、韵律、音色和声学细节),这些属性对于生成来说都是具有重大挑战性的,因此一个自然的想法是将语音分解成代表不同属性的单独子空间,并分别生成它们。受此启发,我们提出了NaturalSpeech 3,这是一个TTS系统,采用新颖的分解扩散模型以零样本方式生成自然语音。具体来说,1)我们设计了一个带有分解向量量化(FVQ)的神经编解码器,将语音波形分解成内容、韵律、音色和声学细节的子空间;2)我们提出了一个分解扩散模型,根据相应的提示生成每个子空间中的属性。通过这种分解设计,NaturalSpeech 3可以以分治的方式有效而高效地建模复杂的语音,将其分解成独立的子空间。实验证明,NaturalSpeech 3在质量、相似性、韵律和可懂度方面优于现有的TTS系统,并且实现了与人类录音相当的质量。此外,我们通过扩展到10亿个参数和20万小时的训练数据来获得更好的性能。
  • 图表
  • 解决问题
    论文旨在解决语音合成中语音质量、相似度和韵律等方面的问题,通过将语音分解成不同的子空间来实现更自然的语音生成。
  • 关键思路
    论文提出了一种基于因式扩散模型的TTS系统,通过因式向量量化将语音波形分解成内容、韵律、音色和声学细节等不同的子空间,并在每个子空间中生成相应的属性。
  • 其它亮点
    通过实验,论文证明了该TTS系统在语音质量、相似度、韵律和可懂度等方面都优于现有的TTS系统,并且在与人类录音的比较中达到了同等的质量水平。此外,论文还展示了通过扩大模型规模和训练数据量可以进一步提高性能。
  • 相关研究
    近期的相关研究包括基于深度学习的TTS系统,如Tacotron、WaveNet和DeepVoice等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论