- 简介并行文本转语音模型已被广泛应用于实时语音合成,并与传统的自回归模型相比,它们提供了更多的可控性和更快的合成过程。虽然并行模型在许多方面都有好处,但由于其完全并行的架构(如变压器),它们自然而然地不适用于增量合成。在这项工作中,我们提出了增量FastPitch,这是一种新的FastPitch变体,通过改进基于块的FFT块的架构、使用受限的块注意掩码进行训练以及使用固定大小的过去模型状态进行推断,能够增量地产生高质量的Mel块。实验结果表明,我们的提议可以产生与并行FastPitch相当的语音质量,同时具有显着较低的延迟,可以为实时语音应用程序提供更低的响应时间。
-
- 图表
- 解决问题论文旨在解决并行文本到语音模型在增量合成方面的困难,提出Incremental FastPitch模型。
- 关键思路通过改进FastPitch的结构,使用基于块的FFT块、受限的接受域注意掩模进行训练,并使用固定大小的过去模型状态进行推理,实现增量合成。
- 其它亮点实验结果表明,Incremental FastPitch可以产生与并行FastPitch相当的语音质量,同时具有显着更低的延迟,适用于实时语音应用程序。
- 相关研究包括Auto-regressive TTS模型和其他增量TTS模型,如Semi-Parallel TTS和Online TTS。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流