本文提出了一种快速且强大的零样本语音合成器HierSpeech++,可用于文本转语音和语音转换。相比之前的自回归语音模型,基于大型语言模型(LLM)的语音合成已经被广泛采用,但它们需要大规模的数据,并且具有相同的限制,包括推理速度慢和缺乏鲁棒性。本文验证了分层语音合成框架可以显着提高合成语音的鲁棒性和表现力。对于文本转语音,本文采用了文本到向量框架,该框架基于文本表示和韵律提示生成自监督的语音表示和F0表示,然后HierSpeech++从生成的向量、F0和语音提示中生成语音。此外,本文还引入了一种高效的语音超分辨率框架,从16 kHz到48 kHz。实验结果表明,分层变分自编码器可以成为一个强大的零样本语音合成器,优于基于LLM和扩散的模型。此外,本文还实现了首次人类水平的零样本语音合成。可在https://github.com/sh-lee-prml/HierSpeechpp上获得音频样本和源代码。