Boosting Large Language Model for Speech Synthesis: An Empirical Study

简介

大型语言模型（LLMs）在自然语言处理方面取得了重大进展，并同时将语言能力扩展到其他模态，如语音和视觉。然而，大多数先前的工作都集中在用听觉理解等感知能力提示LLMs，而增强LLMs的语音合成能力的有效方法仍然不清楚。在本文中，我们通过结合预训练的LLM LLaMA/OPT和文本到语音合成模型VALL-E，对增强LLMs生成语音的能力进行了全面的实证探索。我们比较了三种LLMs和语音合成模型之间的集成方法，包括直接微调LLMs，LLMs和VALL-E的叠加层，以及使用LLMs作为强大的文本编码器的耦合LLMs和VALL-E。实验结果表明，直接使用LoRA方法微调LLMs以增强语音合成能力并不起作用，而叠加LLMs和VALL-E可以提高生成的语音质量，包括说话人相似度和单词错误率（WER）。在这三种方法中，利用LLMs作为文本编码器的耦合方法可以实现最佳性能，使其优于原始语音合成模型，具有更好的说话人相似度和显著（10.9％）的WER降低。
图表
解决问题

本文尝试通过将预训练的LLM与文本到语音合成模型VALL-E相结合，探索如何提升LLM的语音合成能力。同时比较了直接微调LLM、LLM和VALL-E的叠加层以及使用LLM作为文本编码器的耦合LLM和VALL-E三种集成方法的效果。
关键思路

本文提出了将预训练的LLM与文本到语音合成模型VALL-E相结合的方法，通过将LLM作为文本编码器，实现了更好的语音合成效果。
其它亮点

实验结果表明，直接微调LLM的方法并不能有效提升语音合成能力，而使用LLM和VALL-E的叠加层可以提高生成语音的质量，耦合LLM和VALL-E的方法在说话人相似度和词错误率方面都表现得更好。本文使用了LoRA方法进行微调，并在多个数据集上进行了实验。
相关研究

最近的相关研究包括：《SpeechBERT: A Speech Pre-training and Self-supervised Learning Framework for End-to-End Spoken Language Understanding》、《Towards End-to-End Speech Synthesis with Transformers》、《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》等。

Boosting Large Language Model for Speech Synthesis: An Empirical Study

评论