- 简介虽然最近的大规模文本转语音(TTS)模型取得了显著进展,但它们在语音质量、相似度和韵律方面仍存在不足。考虑到语音涵盖了各种属性(例如内容、韵律、音色和声学细节),这些属性对于生成来说具有重要挑战,因此自然的想法是将语音分解为代表不同属性的单独子空间,并分别生成它们。受此启发,我们提出了NaturalSpeech 3,这是一个TTS系统,具有新颖的分解扩散模型,以零样本的方式生成自然语音。具体而言,1)我们设计了一个带有分解向量量化(FVQ)的神经编解码器,将语音波形分解为内容、韵律、音色和声学细节的子空间;2)我们提出了一个分解扩散模型,按照其相应的提示生成每个子空间中的属性。通过这种分解设计,NaturalSpeech 3可以以分而治之的方式有效而高效地对复杂的语音进行建模。实验表明,NaturalSpeech 3在质量、相似度、韵律和可理解性方面优于最先进的TTS系统。此外,我们通过扩展到10亿个参数和20万小时的训练数据来实现更好的性能。
- 图表
- 解决问题该论文旨在解决语音合成中的语音质量、相似度和韵律等问题,提出了一种基于分解扩散模型的自然语音生成方法。
- 关键思路论文提出了一种基于分解向量量化的神经编解码器,将语音波形分解为内容、韵律、音色和声学细节等子空间,并使用分解扩散模型分别生成每个子空间的属性。这种分解设计使得该系统能够以分治的方式有效地和高效地建模复杂的语音。
- 其它亮点该论文在多个方面优于现有的TTS系统,包括语音质量、相似度、韵律和可懂度。该系统使用了1B参数和200K小时的训练数据,实验结果表明其性能更好。此外,该论文还提供了数据集和代码,有助于后续研究。
- 在这个领域中,最近的相关研究包括:1) FastSpeech 2: Fast and High-Quality End-to-End Text to Speech,2) Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram,3) MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis。
沙发等你来抢
去评论
评论
沙发等你来抢