- 简介将文本转语音(TTS)扩展到大规模数据集已被证明是提高合成语音多样性和自然度的有效方法。在高层次上,先前的大规模TTS模型可以分为基于自回归(AR)的模型(例如VALL-E)和基于非自回归(NAR)的模型(例如NaturalSpeech 2/3)。尽管这些工作表现良好,但仍存在潜在的弱点。例如,基于AR的模型存在不稳定的生成质量和缓慢的生成速度;同时,一些基于NAR的模型需要音素级别的持续时间对齐信息,从而增加了数据预处理、模型设计和损失设计的复杂性。在这项工作中,我们在之前的出版物基础上实现了一个简单高效的非自回归(NAR)TTS框架,称为SimpleSpeech 2。SimpleSpeech 2有效地结合了自回归(AR)和非自回归(NAR)方法的优点,提供以下关键优势:(1)简化数据准备;(2)直观的模型和损失设计;(3)稳定、高质量的生成性能和快速的推理速度。与我们之前的出版物相比,我们提出了以下改进:(1)对语音分词器和噪声标签对TTS性能的影响进行了详细分析;(2)四种不同类型的句子持续时间预测器;(3)一种新颖的基于流的标量潜变换扩散模型。通过这些改进,我们展示了与我们之前的工作和其他最先进的大规模TTS模型相比,在生成性能和生成速度方面的显着提高。此外,我们展示了SimpleSpeech 2可以通过在多语言语音数据集上训练来无缝扩展到多语言TTS。演示可在以下网址上找到:{https://dongchaoyang.top/SimpleSpeech2\_demo/}。
- 图表
- 解决问题本论文旨在构建一个简单高效的非自回归(NAR)语音合成框架,解决AR模型生成质量不稳定、生成速度慢和NAR模型需要语音分词和音素级持续时间对齐信息等问题。
- 关键思路论文提出了一种简单高效的NAR TTS框架——SimpleSpeech 2,将AR和NAR方法的优点结合起来,实现了数据准备、模型设计和损失设计的简化,同时保持了高质量的生成性能和快速的推理速度。
- 其它亮点论文通过详细分析语音分词和噪声标签对TTS性能的影响、提出四种不同类型的句子持续时间预测器、引入了一种新颖的基于流的标量潜变换扩散模型。实验结果表明SimpleSpeech 2在生成性能和速度上都有显著提高,并且可以轻松扩展到多语言TTS。作者提供了在线演示和开源代码。
- 近期在该领域的相关研究包括VALL-E、NaturalSpeech 2/3等AR和NAR TTS模型。
沙发等你来抢
去评论
评论
沙发等你来抢