Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model

简介

最近，大型语言模型（LLMs）的进展和音频编解码器的发展极大地推动了零样本TTS的发展。它们可以仅通过一个未知说话者的3秒语音作为声学提示来合成个性化语音。然而，它们仅支持短语音提示，无法利用长期上下文信息，这在有声读物和对话TTS场景中是必需的。本文介绍了一种新颖的基于音频编解码器的TTS模型，以适应多重增强的上下文特征。受Qformer的成功启发，我们提出了一种多模态上下文增强的Qformer（MMCE-Qformer），以利用附加的多模态上下文信息。此外，我们采用预训练的LLM来利用其理解能力来预测语义标记，并使用SoundStorm生成声学标记，从而增强音频质量和说话者相似度。广泛的客观和主观评估表明，我们提出的方法在各种上下文TTS场景中优于基线。
图表
解决问题

本论文旨在解决零样本TTS领域中长文本语境信息不足的问题，提出了一种基于音频编解码器的TTS模型，能够利用多模态上下文信息进行语音合成。
关键思路

论文提出了一种多模态上下文增强Qformer（MMCE-Qformer）的方法，结合预训练的LLM和SoundStorm，利用音频编解码器生成语音，以提高音频质量和说话人相似度。
其它亮点

论文通过实验验证了所提出方法在各种语境TTS场景下的优越性，相较于基线方法，具有更好的表现。同时，论文使用了多个数据集进行实验，并开源了代码，为相关研究提供了参考。
相关研究

近期相关研究包括：1. Zero-shot TTS with LLMs and Audio Codecs; 2. Contextual Tacotron: Expanding the Contextual Range for Spectrogram Prediction with a Convolutional-Attentive Architecture; 3. Learning Transferable Hidden Features for Speaker-Independent Emotional TTS Synthesis.

Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model

评论