Boosting Large Language Model for Speech Synthesis: An Empirical Study

Hongkun Hao ,
Long Zhou ,
Shujie Liu ,
Jinyu Li ,
Shujie Hu ,
Rui Wang ,
Furu Wei
2023年12月30日
  • 简介
    大型语言模型(LLMs)在自然语言处理方面取得了重大进展,并同时将语言能力扩展到其他模态,如语音和视觉。然而,大多数先前的工作都集中在用听觉理解等感知能力提示LLMs,而增强LLMs的语音合成能力的有效方法仍然不清楚。在本文中,我们通过结合预训练的LLM LLaMA/OPT和文本到语音合成模型VALL-E,对增强LLMs生成语音的能力进行了全面的实证探索。我们比较了三种LLMs和语音合成模型之间的集成方法,包括直接微调LLMs,LLMs和VALL-E的叠加层,以及使用LLMs作为强大的文本编码器的耦合LLMs和VALL-E。实验结果表明,直接使用LoRA方法微调LLMs以增强语音合成能力并不起作用,而叠加LLMs和VALL-E可以提高生成的语音质量,包括说话人相似度和单词错误率(WER)。在这三种方法中,利用LLMs作为文本编码器的耦合方法可以实现最佳性能,使其优于原始语音合成模型,具有更好的说话人相似度和显著(10.9%)的WER降低。
  • 图表
  • 解决问题
    本文尝试通过将预训练的LLM与文本到语音合成模型VALL-E相结合,探索如何提升LLM的语音合成能力。同时比较了直接微调LLM、LLM和VALL-E的叠加层以及使用LLM作为文本编码器的耦合LLM和VALL-E三种集成方法的效果。
  • 关键思路
    本文提出了将预训练的LLM与文本到语音合成模型VALL-E相结合的方法,通过将LLM作为文本编码器,实现了更好的语音合成效果。
  • 其它亮点
    实验结果表明,直接微调LLM的方法并不能有效提升语音合成能力,而使用LLM和VALL-E的叠加层可以提高生成语音的质量,耦合LLM和VALL-E的方法在说话人相似度和词错误率方面都表现得更好。本文使用了LoRA方法进行微调,并在多个数据集上进行了实验。
  • 相关研究
    最近的相关研究包括:《SpeechBERT: A Speech Pre-training and Self-supervised Learning Framework for End-to-End Spoken Language Understanding》、《Towards End-to-End Speech Synthesis with Transformers》、《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论