Incremental FastPitch: Chunk-based High Quality Text to Speech

简介

并行文本转语音模型已被广泛应用于实时语音合成，并与传统的自回归模型相比，它们提供了更多的可控性和更快的合成过程。虽然并行模型在许多方面都有好处，但由于其完全并行的架构（如变压器），它们自然而然地不适用于增量合成。在这项工作中，我们提出了增量FastPitch，这是一种新的FastPitch变体，通过改进基于块的FFT块的架构、使用受限的块注意掩码进行训练以及使用固定大小的过去模型状态进行推断，能够增量地产生高质量的Mel块。实验结果表明，我们的提议可以产生与并行FastPitch相当的语音质量，同时具有显着较低的延迟，可以为实时语音应用程序提供更低的响应时间。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决并行文本到语音模型在增量合成方面的困难，提出Incremental FastPitch模型。
关键思路

通过改进FastPitch的结构，使用基于块的FFT块、受限的接受域注意掩模进行训练，并使用固定大小的过去模型状态进行推理，实现增量合成。
其它亮点

实验结果表明，Incremental FastPitch可以产生与并行FastPitch相当的语音质量，同时具有显着更低的延迟，适用于实时语音应用程序。
相关研究

相关研究包括Auto-regressive TTS模型和其他增量TTS模型，如Semi-Parallel TTS和Online TTS。

Incremental FastPitch: Chunk-based High Quality Text to Speech

提问交流

提问交流