- 简介大型语言模型(LLMs)在自然语言处理方面取得了重大进展,并同时将语言能力扩展到其他模态,如语音和视觉。然而,大多数先前的工作都集中在用听觉理解等感知能力提示LLMs,而增强LLMs的语音合成能力的有效方法仍然不清楚。在本文中,我们通过结合预训练的LLM LLaMA/OPT和文本到语音合成模型VALL-E,对增强LLMs生成语音的能力进行了全面的实证探索。我们比较了三种LLMs和语音合成模型之间的集成方法,包括直接微调LLMs,LLMs和VALL-E的叠加层,以及使用LLMs作为强大的文本编码器的耦合LLMs和VALL-E。实验结果表明,直接使用LoRA方法微调LLMs以增强语音合成能力并不起作用,而叠加LLMs和VALL-E可以提高生成的语音质量,包括说话人相似度和单词错误率(WER)。在这三种方法中,利用LLMs作为文本编码器的耦合方法可以实现最佳性能,使其优于原始语音合成模型,具有更好的说话人相似度和显著(10.9%)的WER降低。
- 图表
- 解决问题本文尝试通过将预训练的LLM与文本到语音合成模型VALL-E相结合,探索如何提升LLM的语音合成能力。同时比较了直接微调LLM、LLM和VALL-E的叠加层以及使用LLM作为文本编码器的耦合LLM和VALL-E三种集成方法的效果。
- 关键思路本文提出了将预训练的LLM与文本到语音合成模型VALL-E相结合的方法,通过将LLM作为文本编码器,实现了更好的语音合成效果。
- 其它亮点实验结果表明,直接微调LLM的方法并不能有效提升语音合成能力,而使用LLM和VALL-E的叠加层可以提高生成语音的质量,耦合LLM和VALL-E的方法在说话人相似度和词错误率方面都表现得更好。本文使用了LoRA方法进行微调,并在多个数据集上进行了实验。
- 最近的相关研究包括:《SpeechBERT: A Speech Pre-training and Self-supervised Learning Framework for End-to-End Spoken Language Understanding》、《Towards End-to-End Speech Synthesis with Transformers》、《MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms》等。
沙发等你来抢
去评论
评论
沙发等你来抢