标题:华为|Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech(Grad-TTS:文本到语音的扩散概率模型)

简介:最近,显示了降噪扩散概率模型和生成分数匹配建模复杂数据分布的潜力很大,而随机演算已提供这些技术的统一观点允许灵活的推理方案。在这个在本文中,我们介绍Grad-TTS,这是一种新颖的文本转语音模型,它具有基于分数的解码器,通过逐步变换来生成梅尔谱图编码器预测并与文本对齐的噪声通过单调对齐搜索输入。随机微分方程的框架帮助我们将常规扩散概率模型推广到重建数据的情况来自具有不同参数的噪声,并允许通过明确地使这种重构变得灵活控制声音质量和声音质量之间的权衡推理速度。主观的人类评价表明Grad-TTS与最新的文本语音转换方法相比在平均意见分数上具有竞争优势。我们将不久后公开编写的代码。

代码:https://github.com/grad-tts

下载地址:https://arxiv.org/pdf/2105.06337v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除