- 简介大型语言模型(LLM)基于文本的语音合成(TTS)系统在处理大量语音数据和为新讲话者生成自然语音方面表现出了显著的能力。然而,基于LLM的TTS模型并不稳健,因为生成的输出可能包含重复的单词、缺失的单词和错位的语音(称为幻觉或注意力错误),特别是当文本中包含多个相同标记时。我们在一个编码器-解码器变换器模型中研究了这些挑战,并发现这样的模型中某些交叉注意力头在训练时隐含地学习了文本和语音对齐。为了使对齐更加稳健,我们提出了利用CTC损失和注意力先验的技术,以鼓励文本标记上的单调交叉注意力。我们的引导注意力训练技术不会引入任何新的可学习参数,并显著提高了基于LLM的TTS模型的稳健性。
- 图表
- 解决问题本文旨在解决基于大型语言模型的文本转语音系统中出现的重复单词、遗漏单词和注意力错误等问题,特别是当文本中包含多个相同的单词时。
- 关键思路本文提出了一种使用CTC loss和注意力先验的技术,以鼓励文本单词上的单调交叉注意力,从而使对齐更加稳健。该技术不引入任何新的可学习参数,并显着提高了基于大型语言模型的文本转语音系统的鲁棒性。
- 其它亮点本文的实验表明,使用CTC loss和注意力先验的技术可以显著提高基于大型语言模型的文本转语音系统的鲁棒性,而不需要引入新的可学习参数。本文的方法还可以使交叉注意力更加单调,从而更好地对齐文本和语音。本文使用了encoder-decoder transformer模型,并发现在这种模型中,某些交叉注意力头在训练时隐式地学习文本和语音的对齐。
- 在这个领域中,最近的相关研究包括《Neural Speech Synthesis with Transformer Network》、《Robust Speech Synthesis with LPCNet》、《Investigation of Attention Models for End-to-End Speech Synthesis》等。


提问交流