EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech

2024年03月13日
  • 简介
    最近,基于深度学习的文本转语音(TTS)系统已经取得了高质量的语音合成结果。在TTS系统中,循环神经网络已经成为了序列数据的标准建模技术,并被广泛使用。然而,训练包含RNN组件的TTS模型需要强大的GPU性能并且需要很长时间。相比之下,基于卷积神经网络的序列合成技术可以显著减少TTS模型的参数和训练时间,同时由于其高并行性,可以保证一定的性能,从而缓解了训练的经济成本。在本文中,我们提出了一种基于深度卷积神经网络的轻量级TTS系统,它是一个两阶段的端到端TTS模型,不使用任何循环单元。我们的模型包括两个阶段:Text2Spectrum和SSRN。前者用于将音素编码为粗糙的Mel频谱图,后者用于从粗糙的Mel频谱图中合成完整的频谱。同时,我们通过一系列数据增强方法,如噪声抑制、时间扭曲、频率遮蔽和时间遮蔽,提高了我们模型的鲁棒性,以解决低资源蒙古语问题。实验证明,与使用主流TTS模型相比,我们的模型可以减少训练时间和参数,同时保证合成语音的质量和自然度。我们的方法使用NCMMSC2022-MTTSC Challenge数据集进行验证,这显著缩短了训练时间,同时保持了一定的准确性。
  • 图表
  • 解决问题
    本论文试图解决使用RNN训练TTS模型需要高性能GPU和长时间训练的问题,提出了基于CNN的轻量级TTS系统,旨在减少训练时间和参数数量。
  • 关键思路
    论文提出的解决方案是使用基于CNN的两阶段训练端到端TTS模型,不使用任何循环单元。第一阶段将音素编码为粗糙的Mel频谱图,第二阶段从粗糙的Mel频谱图中合成完整的频谱。此外,作者还通过一系列数据增强方法来提高模型的鲁棒性。
  • 其它亮点
    论文使用NCMMSC2022-MTTSC Challenge数据集进行验证,相比于使用主流TTS模型,作者的模型能够减少训练时间和参数数量,同时保证合成语音的质量和自然度。作者还进行了噪声抑制、时间扭曲、频率掩蔽和时间掩蔽等数据增强方法以解决低资源蒙古语问题。
  • 相关研究
    最近的相关研究包括使用RNN训练TTS模型的方法,如Tacotron、DeepVoice等。另外,也有一些使用CNN的方法,如WaveNet、Parallel WaveNet等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论