XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations for Text-to-Speech
Linh The Nguyen, Thinh Pham, Dat Quoc Nguyen
Github地址:https://github.com/VinAIResearch/XPhoneBERT
论文地址:https://arxiv.org/abs/2305.19709
XPhoneBERT是第一个预先训练用于学习下游文本到语音(TTS)任务的音素表示的多语言模型。我们的XPhoneBERT具有与BERT基础相同的模型架构,使用RoBERTa预训练方法对近100种语言和地区的3.3亿音素级句子进行训练。
使用XPhoneBERT作为输入音素编码器,在自然性和韵律方面显著提高了强神经TTS模型的性能,还有助于在训练数据有限的情况下产生相当高质量的语音。
XPhoneBERT可以与HuggingFace的变压器库一起使用。此外,我们还使用我们的XPhoneBERT编码器扩展了强神经TTS基线的实现。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢