- 简介本文提出了一种快速且强大的零样本语音合成器HierSpeech++,可用于文本转语音和语音转换。相比之前的自回归语音模型,基于大型语言模型(LLM)的语音合成已经被广泛采用,但它们需要大规模的数据,并且具有相同的限制,包括推理速度慢和缺乏鲁棒性。本文验证了分层语音合成框架可以显着提高合成语音的鲁棒性和表现力。对于文本转语音,本文采用了文本到向量框架,该框架基于文本表示和韵律提示生成自监督的语音表示和F0表示,然后HierSpeech++从生成的向量、F0和语音提示中生成语音。此外,本文还引入了一种高效的语音超分辨率框架,从16 kHz到48 kHz。实验结果表明,分层变分自编码器可以成为一个强大的零样本语音合成器,优于基于LLM和扩散的模型。此外,本文还实现了首次人类水平的零样本语音合成。可在https://github.com/sh-lee-prml/HierSpeechpp上获得音频样本和源代码。
-
- 图表
- 解决问题HierSpeech++试图解决零样本语音合成中LLM模型的缺陷,包括需要大规模数据和推理速度慢等问题。同时,它还试图提高合成语音的自然度和说话人相似度。
- 关键思路HierSpeech++采用分层语音合成框架,通过生成自监督语音表示和基于文本表示和韵律提示的F0表示来进行文本到语音的转换。此外,它还引入了高效的语音超分辨率框架来提高语音的质量。
- 其它亮点论文的实验结果表明,相比LLM和扩散模型,HierSpeech++是一个更强大的零样本语音合成器。此外,它还实现了人类级别的语音合成质量。论文提供了音频样本和源代码,并使用了多个数据集进行实验,包括LJ音频数据集和VCTK语音数据集。
- 在最近的相关研究中,也有一些关于零样本语音合成的论文,如ZeroSpeech 2019和Meta-TTS等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流