- 简介最近,基于深度学习的文本转语音(TTS)系统已经取得了高质量的语音合成结果。在TTS系统中,循环神经网络已经成为了序列数据的标准建模技术,并被广泛使用。然而,训练包含RNN组件的TTS模型需要强大的GPU性能并且需要很长时间。相比之下,基于卷积神经网络的序列合成技术可以显著减少TTS模型的参数和训练时间,同时由于其高并行性,可以保证一定的性能,从而缓解了训练的经济成本。在本文中,我们提出了一种基于深度卷积神经网络的轻量级TTS系统,它是一个两阶段的端到端TTS模型,不使用任何循环单元。我们的模型包括两个阶段:Text2Spectrum和SSRN。前者用于将音素编码为粗糙的Mel频谱图,后者用于从粗糙的Mel频谱图中合成完整的频谱。同时,我们通过一系列数据增强方法,如噪声抑制、时间扭曲、频率遮蔽和时间遮蔽,提高了我们模型的鲁棒性,以解决低资源蒙古语问题。实验证明,与使用主流TTS模型相比,我们的模型可以减少训练时间和参数,同时保证合成语音的质量和自然度。我们的方法使用NCMMSC2022-MTTSC Challenge数据集进行验证,这显著缩短了训练时间,同时保持了一定的准确性。
- 图表
- 解决问题本论文试图解决使用RNN训练TTS模型需要高性能GPU和长时间训练的问题,提出了基于CNN的轻量级TTS系统,旨在减少训练时间和参数数量。
- 关键思路论文提出的解决方案是使用基于CNN的两阶段训练端到端TTS模型,不使用任何循环单元。第一阶段将音素编码为粗糙的Mel频谱图,第二阶段从粗糙的Mel频谱图中合成完整的频谱。此外,作者还通过一系列数据增强方法来提高模型的鲁棒性。
- 其它亮点论文使用NCMMSC2022-MTTSC Challenge数据集进行验证,相比于使用主流TTS模型,作者的模型能够减少训练时间和参数数量,同时保证合成语音的质量和自然度。作者还进行了噪声抑制、时间扭曲、频率掩蔽和时间掩蔽等数据增强方法以解决低资源蒙古语问题。
- 最近的相关研究包括使用RNN训练TTS模型的方法,如Tacotron、DeepVoice等。另外,也有一些使用CNN的方法,如WaveNet、Parallel WaveNet等。
沙发等你来抢
去评论
评论
沙发等你来抢