- 简介在文本转语音(TTS)合成中,扩散模型已经取得了有前途的生成质量。然而,由于预定义的数据到噪声扩散过程,它们的先验分布被限制为嘈杂的表示,提供了很少的有关生成目标的信息。在这项工作中,我们提出了一种新的TTS系统——Bridge-TTS,首次尝试用干净和确定性的先验替换已有扩散型TTS方法中的嘈杂高斯先验,从而提供目标的强结构信息。具体来说,我们利用从文本输入中获得的潜在表示作为我们的先验,并在它与真实的梅尔频谱之间建立一个完全可追踪的薛定谔桥,从而实现了数据到数据的过程。此外,我们的公式的可追踪性和灵活性使我们能够实证地研究噪声时间表的设计空间,以及开发随机和确定性采样器。LJ-Speech数据集上的实验结果表明,我们的方法在合成质量和采样效率方面的有效性显著优于我们的扩散对应物Grad-TTS,在50步/1000步合成和少步骤场景中也明显优于强快速TTS模型。项目页面:https://bridge-tts.github.io/
- 图表
- 解决问题本论文尝试用一种新的方法来解决TTS合成中的先验分布问题,以提高合成质量和采样效率。
- 关键思路论文提出了一种名为Bridge-TTS的新型TTS系统,将噪声高斯先验替换为干净且确定性的先验,从而提供目标的结构信息,并构建了一个完全可追踪的Schrodinger bridge,从文本输入的潜在表示到地面真实的mel频谱,实现了数据到数据的合成过程。
- 其它亮点实验结果表明,Bridge-TTS方法在50步/1000步合成和少量步骤情况下显著优于Grad-TTS和强大的快速TTS模型。此外,论文还探讨了噪声调度的设计空间,并开发了随机和确定性采样器。项目页面提供了数据集和代码。
- 最近的相关研究包括:1. DiffWave: A Versatile Diffusion Model for Audio Synthesis (ICLR 2021);2. Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search (ICLR 2020);3. FastSpeech 2: Fast and High-Quality End-to-End Text to Speech (ICLR 2021)。
沙发等你来抢
去评论
评论
沙发等你来抢