We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings

简介

在语音合成中，模拟人类语音中丰富的情感和声调变化对于合成自然语音至关重要。尽管说话者嵌入已经被广泛用于个性化语音合成中作为条件输入，但它们被设计成失去变异以优化说话者识别准确性。因此，在建模输出语音分布的丰富变异方面，它们在语音合成方面是次优的。在这项工作中，我们提出了一种新颖的说话者嵌入网络，它在说话者分类训练中使用多个类中心而不是传统嵌入中的单个类中心。所提出的方法在保持说话者识别性能的同时引入了说话者嵌入的变化，因为模型不必将说话者的所有话语映射到单个类中心。我们将我们提出的嵌入应用于语音转换任务，并展示了我们的方法在合成语音的自然度和韵律方面提供了更好的表现。
图表
解决问题

如何在语音合成中建模丰富的情感和韵律变化？如何在个性化语音合成中使用说话人嵌入？
关键思路

提出了一种利用多个类中心的说话人嵌入网络，以在保持说话人识别性能的同时建模输出语音分布中的丰富变化。
其它亮点

实验表明，该方法在语音转换任务中提供了更好的自然度和韵律。
相关研究

最近的相关研究包括“Deep Voice 2: Multi-Speaker Neural Text-to-Speech”和“Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis”。