MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer

2024年09月01日
  • 简介
    近期的大规模文本到语音(TTS)系统通常被分为自回归和非自回归系统。自回归系统隐式地建模了时长,但在鲁棒性和时长可控性方面存在一定的不足。非自回归系统在训练过程中需要显式的文本与语音对齐信息,并预测语言单元(例如音素)的时长,这可能会影响其自然度。本文中,我们介绍了掩码生成编解码器变换器(MaskGCT),这是一种完全非自回归的TTS模型,消除了对显式文本与语音监督对齐信息以及音素级时长预测的需求。MaskGCT是一个两阶段模型:在第一阶段,模型使用文本预测从语音自监督学习(SSL)模型中提取的语义标记;在第二阶段,模型基于这些语义标记预测声学标记。MaskGCT遵循掩码与预测学习范式。在训练过程中,MaskGCT学习根据给定的条件和提示预测被掩码的语义或声学标记。在推理过程中,模型以并行方式生成指定长度的标记。使用10万小时的野生语音数据进行的实验表明,MaskGCT在质量、相似性和可理解性方面优于当前最先进的零样本TTS系统。音频样本可在https://maskgct.github.io/获取。我们将在https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct发布我们的代码和模型检查点。
  • 图表
  • 解决问题
    本文旨在解决当前文本转语音(TTS)系统中存在的问题,特别是自回归和非自回归系统的不足之处。自回归系统虽然能够隐式建模持续时间,但在鲁棒性和持续时间控制方面存在缺陷;而非自回归系统则需要显式的对齐信息和音素级别的持续时间预测,可能影响自然度。本文提出了一种新的非自回归TTS模型,以克服这些限制。
  • 关键思路
    本文引入了Masked Generative Codec Transformer (MaskGCT),这是一种完全非自回归的TTS模型,不需要显式的文本与语音对齐信息或音素级别的持续时间预测。MaskGCT采用两阶段模型:第一阶段使用文本预测从自监督学习(SSL)模型中提取的语义标记;第二阶段在这些语义标记的条件下预测声学标记。该模型基于掩码和预测的学习范式,在训练时学习根据给定条件和提示预测被掩码的语义或声学标记;在推理时,模型以并行方式生成指定长度的标记。
  • 其它亮点
    1. 实验使用了10万小时的野生语音数据,展示了MaskGCT在零样本TTS任务中的优越性能,特别是在质量、相似性和可理解性方面超越了现有方法。 2. 作者提供了音频样例和开源代码,便于其他研究人员复现和进一步研究。 3. 该模型的创新点在于消除了对显式对齐信息的需求,同时保持了高质量的合成语音,为未来的TTS研究开辟了新的方向。
  • 相关研究
    1. "Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention" - 这篇论文提出了基于深度卷积网络的TTS系统,通过引导注意力机制提高合成语音的质量。 2. "FastSpeech 2: Fast and High-Quality End-to-End Text to Speech" - FastSpeech 2 是一种非自回归TTS模型,通过改进持续时间预测和声学特征生成提高了合成速度和质量。 3. "VALL-E: Zero-Shot Voice Cloning with Vector-Quantized Autoregressive Diffusion Models" - VALL-E 提出了一种基于矢量量化自回归扩散模型的零样本语音克隆方法,展示了在少量数据下生成高质量语音的能力。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论