- 简介最近,大型语言模型(LLMs)的进展和音频编解码器的发展极大地推动了零样本TTS的发展。它们可以仅通过一个未知说话者的3秒语音作为声学提示来合成个性化语音。然而,它们仅支持短语音提示,无法利用长期上下文信息,这在有声读物和对话TTS场景中是必需的。本文介绍了一种新颖的基于音频编解码器的TTS模型,以适应多重增强的上下文特征。受Qformer的成功启发,我们提出了一种多模态上下文增强的Qformer(MMCE-Qformer),以利用附加的多模态上下文信息。此外,我们采用预训练的LLM来利用其理解能力来预测语义标记,并使用SoundStorm生成声学标记,从而增强音频质量和说话者相似度。广泛的客观和主观评估表明,我们提出的方法在各种上下文TTS场景中优于基线。
- 图表
- 解决问题本论文旨在解决零样本TTS领域中长文本语境信息不足的问题,提出了一种基于音频编解码器的TTS模型,能够利用多模态上下文信息进行语音合成。
- 关键思路论文提出了一种多模态上下文增强Qformer(MMCE-Qformer)的方法,结合预训练的LLM和SoundStorm,利用音频编解码器生成语音,以提高音频质量和说话人相似度。
- 其它亮点论文通过实验验证了所提出方法在各种语境TTS场景下的优越性,相较于基线方法,具有更好的表现。同时,论文使用了多个数据集进行实验,并开源了代码,为相关研究提供了参考。
- 近期相关研究包括:1. Zero-shot TTS with LLMs and Audio Codecs; 2. Contextual Tacotron: Expanding the Contextual Range for Spectrogram Prediction with a Convolutional-Attentive Architecture; 3. Learning Transferable Hidden Features for Speaker-Independent Emotional TTS Synthesis.
沙发等你来抢
去评论
评论
沙发等你来抢