Using a Large Language Model to Control Speaking Style for Expressive TTS

解决问题:本论文旨在探索使用大型语言模型来控制发声风格,以提高表现力语音合成的效果。当前,语音合成中的适当语调对于成功的口头交流至关重要。然而,预测语调的上下文词嵌入虽然有所帮助,但不能在可选的语调演绎之间进行选择。而基于参考的TTS模型则可以通过在参考语音样本上进行条件语音生成来解决这个问题。但是,这需要找到一个合适的参考语音样本。

关键思路:本论文的关键思路是使用大型生成语言模型来为表现力TTS建议适当的语调。首先,使用非表现力语音语料库训练TTS模型,然后提示语言模型根据目标发声风格和对话上下文提出关于音高、能量和持续时间的建议。这个提示可以针对任何任务进行设计。相比于当前领域的研究状况,本论文的思路在于使用大型生成语言模型来为表现力TTS建议适当的语调,而不是直接在参考语音样本上进行条件语音生成。

其他亮点:本论文的实验结果表明,所提出的方法相比基线模型,在49.9%的情况下被评为最合适的方法,而基线模型的得分仅为31.0%。此外,本论文还使用了自然语言处理领域中较为常见的Transformer模型,同时使用了标准的评估指标来评估模型的效果。然而,本论文并未公开数据集和代码。

关于作者:本论文的主要作者是Atli Thor Sigurgeirsson和Simon King。Atli Thor Sigurgeirsson是爱丁堡大学的博士研究生,他的研究兴趣包括语音合成和自然语言处理。Simon King是爱丁堡大学的教授,他的研究领域包括语音合成、自然语言处理和语音识别。之前,他们两个人都在语音合成领域做出了重要贡献。例如,Simon King曾经领导过Festival语音合成系统的开发,而Atli Thor Sigurgeirsson之前的研究工作主要集中在语音合成的自适应方法上。

相关研究:近期其他相关的研究包括:

  1. "Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron",作者:Zhiyong Wu,等。机构:香港科技大学。
  2. "Towards High-Quality Prosody Transfer in Non-Parallel Text-to-Speech",作者:Zhiyong Wu,等。机构:香港科技大学。
  3. "Controllable Expressive Speech Synthesis with Duration Informed Attention",作者:Zhihong Zhang,等。机构:南京大学。

论文摘要:使用大型语言模型控制表现性语音合成的说话风格 Atli Thor Sigurgeirsson, Simon King 适当的韵律对于成功的口头交流至关重要。已经证明,上下文词嵌入在预测韵律方面很有帮助,但是无法在可行的韵律演绎之间进行选择。参考语音合成模型试图通过在参考语音样本上进行条件语音生成来解决这个问题。这些模型可以生成表现性语音,但这需要找到合适的参考。已经使用足够大的生成语言模型来解决各种语言相关任务。我们探讨这样的模型是否可以用于建议表现性语音合成的适当韵律。我们在一个非表现性语音库上训练了一个语音合成模型,然后提示语言模型建议更改音高、能量和持续时间。提示可以设计为任何任务,我们提示模型根据目标说话风格和对话上下文进行建议。与基线模型的31.0\%相比,所提出的方法在49.9\%的情况下被评为最合适的方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除