1. 风格建模和转换:高表现力语音具有高动态范围,通常难以控制和转换。许多合成模型只学到了输入数据的平均分布,并且缺乏细粒度风格建模能力;
2. 模型泛化:当预测时参考样本的声学风格分布与训练数据存在差异时,合成语音的质量和相似性往往会显著降低。

在今年的人工智能顶级会议 NeurIPS 2022 上,浙江大学与 SEA AI Lab 提出了全新的可建模未见风格(音色、情感和韵律)的可泛化语音合成模型 GenerSpeech。针对域外风格迁移的性能损失问题,提出了基于解耦表征学习的可泛化文本编码器和多层级风格编码器,实现了对未见语者、情感、韵律的可泛化零样本迁移与高质量无监督风格建模,在风格相似度上提升 1 倍偏好,解决高质量、可控性、可泛化的跨模态序列映射问题。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢