- 简介在过去的十年中,人们致力于开发高度表现力和可控的文本转语音(TTS)系统。一般来说,整体TTS包括两个相互连接的组件:前端模块和后端模块。前端模块擅长从原始文本输入中捕获语言表示,而后端模块则将语言提示转换为语音。研究社区对前端组件的研究越来越感兴趣,认识到它在文本转语音系统中的关键作用,包括文本规范化(TN)、韵律边界预测(PBP)和多音字消歧(PD)。然而,不充足的标注文本数据和对同质文本信号的依赖显著削弱了其监督学习的有效性。为了避免这一障碍,本文提出了一种新的两阶段TTS前端预测管道,名为TAP-FM。具体来说,在第一学习阶段,我们提出了一种多尺度对比文本-音频预训练协议(MC-TAP),通过多粒度对比预训练以无监督方式获得更丰富的见解。我们的框架不同于先前的预训练方法中挖掘同质特征,而是展示了深入探讨全局和局部文本-音频语义和声学表示的能力。此外,在第二阶段中,还精心设计了并行的TTS前端模型,分别执行TN、PD和PBP预测任务。最后,广泛的实验说明了我们提出的方法的优越性,实现了最先进的性能。
- 图表
- 解决问题论文旨在解决文本转语音系统中前端组件(包括文本规范化、韵律边界预测和多音字消歧)的监督学习受到数据限制和同质文本信号的影响的问题。
- 关键思路论文提出了一种名为TAP-FM的两阶段文本转语音前端预测流水线,其中第一阶段采用多尺度对比文本-音频预训练协议(MC-TAP)进行无监督学习,以获取更丰富的全局和局部文本-音频语义和声学表示,第二阶段采用并行化的TTS前端模型进行TN、PD和PBP预测任务。
- 其它亮点论文的实验结果表明,TAP-FM方法具有超越其他方法的性能,并且在多个数据集上进行了测试。此外,论文提出的MC-TAP预训练协议也是一项亮点,可以用于其他相关任务的无监督学习。
- 最近的相关研究包括:《A Comprehensive Survey of Text-to-Speech Synthesis》、《Recent Advances in Neural Text-to-Speech Synthesis》等。
沙发等你来抢
去评论
评论
沙发等你来抢