Towards Zero-Shot Text-To-Speech for Arabic Dialects

2024年06月24日
  • 简介
    零样本多说话人文本转语音(ZS-TTS)系统在英语方面已经有所发展,但由于资源不足,它仍然落后。我们通过首先调整一个庞大的现有数据集以适应语音合成的需求来填补阿拉伯语方面的差距,阿拉伯语是拥有超过4.5亿母语使用者的语言。此外,我们使用一组阿拉伯语方言识别模型来探索预定义方言标签对在多方言设置中改善ZS-TTS模型的影响。随后,我们对一个开源架构XTTS进行微调。我们在一个包含31个不可见说话人和一个内部方言数据集的数据集上评估我们的模型。我们的自动化和人工评估结果表明,我们的模型表现令人信服,同时能够生成方言语音。我们的研究突显了阿拉伯语这一新兴研究领域的显著潜力。
  • 图表
  • 解决问题
    本论文旨在解决阿拉伯语零样本多说话人文本转语音系统的不足,为阿拉伯语提供更多资源。作者通过适应现有数据集以适应语音合成的需求,并利用一组阿拉伯方言识别模型探索预定义方言标签对改善多方言设置中的ZS-TTS模型的影响。然后对一个开源架构XTTS进行微调,最后在31个未见过的说话人和一个内部方言数据集上评估模型的性能。
  • 关键思路
    本文的关键思路是通过适应现有数据集以适应语音合成的需求,并利用一组阿拉伯方言识别模型探索预定义方言标签对改善多方言设置中的ZS-TTS模型的影响。
  • 其它亮点
    本文使用了一个开源架构XTTS,通过微调来提高阿拉伯语零样本多说话人文本转语音系统的性能。作者还进行了自动化和人工评估,并在生成方言性语音方面表现出色。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“Zero-shot Multi-speaker Text-to-Speech with State-of-the-art Neural Speaker Embeddings”和“Transfer Learning from Spectrogram to Waveform Generation for Voice Conversion and Speaker Adaptation”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论