- 简介大规模扩散模型在多个模态(包括图像、视频和音频)上表现出优秀的生成能力。然而,文本到语音(TTS)系统通常涉及特定于领域的建模因素(例如音素和音素级持续时间),以确保文本和语音之间的精确时间对齐,这妨碍了扩散模型用于TTS的效率和可扩展性。在这项工作中,我们提出了一种高效且可扩展的扩散Transformer(DiT),它利用现成的预训练文本和语音编码器。我们的方法通过交叉注意机制和预测语音表示的总长度来解决文本-语音对齐的挑战。为了实现这一点,我们增强了DiT架构以适应TTS,并通过将语义指导纳入语音的潜在空间来改善对齐。我们将训练数据集和模型大小扩展到82K小时和790M参数。我们广泛的实验表明,大规模扩散模型对于TTS没有领域特定的建模,不仅简化了训练流程,而且在自然度、可懂度和说话人相似性方面,产生了优秀或可比较的零样本性能,超过了最先进的TTS模型。我们的语音样本可在https://ditto-tts.github.io上获得。
- 图表
- 解决问题本文试图解决TTS中需要使用特定建模因素的问题,这会影响扩展性和效率。作者提出了一种利用预训练的文本和语音编码器的高效可扩展的扩散变压器(DiT)模型,以消除领域特定建模因素的需求。
- 关键思路本文提出的DiT模型使用交叉注意力机制和语音表示的总长度预测来解决文本和语音对齐的问题,并通过将语义引导纳入语音的潜在空间来提高对齐性能。
- 其它亮点本文的实验表明,使用大规模扩散模型进行TTS的零样本性能不仅优于当前最先进的TTS模型,而且在自然度、可理解度和说话人相似度方面也具有优越性。作者使用了大规模的训练数据集和模型,实现了82K小时的训练数据和790M个参数的模型。作者提供了实验结果和样例语音,同时也提供了开源代码。
- 最近的相关研究包括使用自回归模型和非自回归模型进行TTS的研究,如FastSpeech、ParallelWaveGAN等。
沙发等你来抢
去评论
评论
沙发等你来抢