- 简介我们介绍了一种名为BASE TTS的文本到语音(TTS)模型,其中BASE TTS代表大规模自适应可流式TTS和新兴能力。BASE TTS是迄今为止最大的TTS模型,使用了100K小时的公共领域语音数据进行训练,在语音自然度方面实现了新的最先进水平。它采用了一个10亿参数的自回归Transformer,将原始文本转换为离散代码(“speechcodes”),然后使用基于卷积的解码器将这些speechcodes逐步转换为波形,实现可增量和可流式。此外,我们的speechcodes使用一种新颖的语音分词技术构建,具有说话者ID分离和使用字节对编码进行压缩的特点。回应大型语言模型在训练时使用越来越多的数据时广泛报道的“新兴能力”,我们展示了使用10K+小时和500M+参数构建的BASE TTS变体在文本复杂句子的自然韵律方面开始展示出自然韵律。我们设计并分享了一个专门用于衡量这些新兴能力的文本到语音数据集。我们通过与包括公开可用的大规模文本到语音系统(YourTTS、Bark和TortoiseTTS)在内的基线进行评估,展示了BASE TTS的最先进自然度。模型生成的音频样本可在https://amazon-ltts-paper.com/上听到。
- 图表
- 解决问题本论文旨在介绍一种名为BASE TTS的文本转语音模型,该模型是目前最大的TTS模型,使用100K小时的公共领域语音数据进行训练,并取得了新的自然度最高水平。论文旨在解决如何在大规模语音数据上训练出高质量的TTS模型的问题。
- 关键思路论文的关键思路是使用一个10亿参数的自回归Transformer将原始文本转换为离散代码(“speechcodes”),然后使用基于卷积的解码器将这些speechcodes以增量、可流式的方式转换为波形。论文还使用了一种新的语音分词技术来构建speechcodes,该技术具有说话人ID分离和字节对编码压缩的特点。
- 其它亮点论文的亮点包括:使用了100K小时的公共领域语音数据进行训练,取得了新的自然度最高水平;使用了一种新的语音分词技术来构建speechcodes;展示了大型语言模型在训练数据增加时出现的“新兴能力”,即在文本复杂的句子上展示出自然的韵律;设计并分享了一个专门用于衡量TTS的新数据集;通过与公开可用的大规模TTS系统进行评估,展示了BASE TTS的自然度最高水平。
- 近期在这个领域中的相关研究包括:YourTTS、Bark和TortoiseTTS等公开可用的大规模TTS系统。
沙发等你来抢
去评论
评论
沙发等你来抢