NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成

语音合成旨在根据文本合成特定说话人的语音。先进语音合成模型展示了强大的生成能力，无论是生成高水平的细节还是其生成的多样性，都让人印象深刻。个性化语音生成需求的增加对语音合成模型提出了挑战，尤其是在域外（OOD; Out-Of-Distribution）的训练未见场景中。

与通常可控的语音合成不同，域外文本到语音的风格转换旨在迁移域外参考样本（Custom Reference）的声学风格（例如，音色、情感和韵律等），进而合成高质量、高相似度语音，主要受到两个方面的挑战：

1. 风格建模和转换：高表现力语音具有高动态范围，通常难以控制和转换。许多合成模型只学到了输入数据的平均分布，并且缺乏细粒度风格建模能力；

2. 模型泛化：当预测时参考样本的声学风格分布与训练数据存在差异时，合成语音的质量和相似性往往会显著降低。

论文链接：https://arxiv.org/abs/2205.07211

代码链接：https://github.com/Rongjiehuang/GenerSpeech

在今年的人工智能顶级会议 NeurIPS 2022 上，浙江大学与 SEA AI Lab 提出了全新的可建模未见风格（音色、情感和韵律）的可泛化语音合成模型 GenerSpeech。针对域外风格迁移的性能损失问题，提出了基于解耦表征学习的可泛化文本编码器和多层级风格编码器，实现了对未见语者、情感、韵律的可泛化零样本迁移与高质量无监督风格建模，在风格相似度上提升 1 倍偏好，解决高质量、可控性、可泛化的跨模态序列映射问题。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成

评论列表

评论