Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model

2024年06月06日
  • 简介
    最近,大型语言模型(LLMs)的进展和音频编解码器的发展极大地推动了零样本TTS的发展。它们可以仅通过一个未知说话者的3秒语音作为声学提示来合成个性化语音。然而,它们仅支持短语音提示,无法利用长期上下文信息,这在有声读物和对话TTS场景中是必需的。本文介绍了一种新颖的基于音频编解码器的TTS模型,以适应多重增强的上下文特征。受Qformer的成功启发,我们提出了一种多模态上下文增强的Qformer(MMCE-Qformer),以利用附加的多模态上下文信息。此外,我们采用预训练的LLM来利用其理解能力来预测语义标记,并使用SoundStorm生成声学标记,从而增强音频质量和说话者相似度。广泛的客观和主观评估表明,我们提出的方法在各种上下文TTS场景中优于基线。
  • 图表
  • 解决问题
    本论文旨在解决零样本TTS领域中长文本语境信息不足的问题,提出了一种基于音频编解码器的TTS模型,能够利用多模态上下文信息进行语音合成。
  • 关键思路
    论文提出了一种多模态上下文增强Qformer(MMCE-Qformer)的方法,结合预训练的LLM和SoundStorm,利用音频编解码器生成语音,以提高音频质量和说话人相似度。
  • 其它亮点
    论文通过实验验证了所提出方法在各种语境TTS场景下的优越性,相较于基线方法,具有更好的表现。同时,论文使用了多个数据集进行实验,并开源了代码,为相关研究提供了参考。
  • 相关研究
    近期相关研究包括:1. Zero-shot TTS with LLMs and Audio Codecs; 2. Contextual Tacotron: Expanding the Contextual Range for Spectrogram Prediction with a Convolutional-Attentive Architecture; 3. Learning Transferable Hidden Features for Speaker-Independent Emotional TTS Synthesis.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论