文本到语音合成旨在从文本合成高可懂度和自然度的语音,很久以来一直是语言、语音、深度学习、人工智能等领域热门的研究方向,受到了学术界和工业界的广泛关注。近年来,随着深度学习的发展,基于神经网络的语音合成极大地提高了合成语音的质量。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年的发展,领域内产出了大量的优质研究成果,但针对不同研究方向的整合型综述论文却十分匮乏。
因此,微软亚洲研究院的研究员们发表了一篇综述论文 “A Survey on Neural Speech Synthesis”,全面梳理、总结了神经语音合成领域的发展现状以及未来发展方向。该文章可谓是迄今为止语音合成领域几乎最为详尽的综述论文。研究员们共调研了450多篇文献,分别从语音合成的核心模块(文本分析、声学模型、声码器)以及进阶主题(快速语音合成、低资源语音合成、鲁棒语音合成、富有表现力的语音合成、可适配语音合成)两大方面对该领域的工作进行了梳理总结。同时,研究员们还收集了语音合成领域的相关资源(数据集、开源实现、演讲教程等)并且讨论了未来研究方向。
论文链接:https://arxiv.org/pdf/2106.15561.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢