提到语音个性化定制,你或许并不陌生。生活中利用明星的声音进行文字播报、语音导航等,都是来自这项重要的文本到语音合成服务。虽其应用广泛,但是现阶段仍面临着很多挑战,例如不同的声学条件对定制效果的影响,需要大量目标说话人的数据及适配参数等等。为此,微软亚洲研究院机器学习组与微软 Azure 语音团队共同合作,推出了 AdaSpeech 1/2/3 系列工作,旨在实现更有泛化性且更高效的语音个性化定制:
1) AdaSpeech 1 (Adaptive Text to Speech for Custom Voice) 主要提升源 TTS 模型的鲁棒泛化性,以更好地支持不同类型的说话人;同时降低模型的适配参数量,以更好地支持更多数量的说话人。
2)AdaSpeech 2 (Adaptive Text to Speech with Untranscribed Data) 支持目标说话人仅使用无文本标注的语音数据进行声音的定制,实现了和有文本标注的语音数据相当的适配语音质量。
3)AdaSpeech 3 (Adaptive Text to Speech for Spontaneous Style) 主要针对自发风格的语音(spontaneous-style speech)设计了高效的定制化方法,以实现此类语音风格的定制。
AdaSpeech 1/2/3 系列相关研究论文已分别收录于 ICLR 2021 / ICASSP 2021 / INTERSPEECH2021 三个顶级学术会议。同时,该系列研究工作也被应用于微软 Azure TTS 语音合成技术,以构建更好的语音定制化服务。
AdaSpeech1: Adaptive Text to Speech for Custom Voice, ICLR 2021
链接:https://arxiv.org/pdf/2103.00993.pdf
AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data, ICASSP2021
链接:https://arxiv.org/pdf/2104.09715.pdf
AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style, INTERSPEECH 2021
链接:https://arxiv.org/pdf/2107.02530.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢