应对个性化定制语音合成挑战，微软推出AdaSpeech系列研究

提到语音个性化定制，你或许并不陌生。生活中利用明星的声音进行文字播报、语音导航等，都是来自这项重要的文本到语音合成服务。虽其应用广泛，但是现阶段仍面临着很多挑战，例如不同的声学条件对定制效果的影响，需要大量目标说话人的数据及适配参数等等。为此，微软亚洲研究院机器学习组与微软 Azure 语音团队共同合作，推出了 AdaSpeech 1/2/3 系列工作，旨在实现更有泛化性且更高效的语音个性化定制：

1) AdaSpeech 1 (Adaptive Text to Speech for Custom Voice) 主要提升源 TTS 模型的鲁棒泛化性，以更好地支持不同类型的说话人；同时降低模型的适配参数量，以更好地支持更多数量的说话人。

2）AdaSpeech 2 (Adaptive Text to Speech with Untranscribed Data) 支持目标说话人仅使用无文本标注的语音数据进行声音的定制，实现了和有文本标注的语音数据相当的适配语音质量。

3）AdaSpeech 3 (Adaptive Text to Speech for Spontaneous Style) 主要针对自发风格的语音（spontaneous-style speech）设计了高效的定制化方法，以实现此类语音风格的定制。

AdaSpeech 1/2/3 系列相关研究论文已分别收录于 ICLR 2021 / ICASSP 2021 / INTERSPEECH2021 三个顶级学术会议。同时，该系列研究工作也被应用于微软 Azure TTS 语音合成技术，以构建更好的语音定制化服务。

AdaSpeech1: Adaptive Text to Speech for Custom Voice, ICLR 2021

链接：https://arxiv.org/pdf/2103.00993.pdf

AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data, ICASSP2021

链接：https://arxiv.org/pdf/2104.09715.pdf

AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style, INTERSPEECH 2021

链接：https://arxiv.org/pdf/2107.02530.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

应对个性化定制语音合成挑战，微软推出AdaSpeech系列研究

评论