A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge

2024年06月22日
  • 简介
    本文介绍了为LIMMITS'24挑战开发语音合成系统的过程,主要关注第二赛道。该挑战的目标是建立一个多说话人、多语言的印度文本转语音系统,具有语音克隆能力,覆盖七种印度语言,包括男性和女性说话人。该系统使用挑战数据进行训练,并针对目标说话人进行了少量语音克隆的微调。评估包括跨越所有七种语言的单语和跨语言综合评估,主观测试评估了自然度和说话人相似度。我们的系统采用了VITS2架构,增加了多语言ID和BERT模型以增强上下文语言理解。在第一赛道中,不允许使用额外的数据,我们的模型获得了4.02的说话人相似度得分。在允许使用额外数据的第二赛道中,它获得了4.17的说话人相似度得分。
  • 图表
  • 解决问题
    本论文旨在开发一个多说话人、多语言的印度文本转语音系统,并具有语音克隆功能,涵盖七种印度语言,包括男性和女性演讲者。该系统使用挑战数据进行训练,并针对目标演讲者进行少样本语音克隆的微调。
  • 关键思路
    本论文提出了一种使用VITS2架构、多语言ID和BERT模型来增强上下文语言理解的方法,以解决印度多说话人、多语言文本转语音的问题。
  • 其它亮点
    本文使用了七种印度语言的数据,并进行了单语言和跨语言合成的主观测试,评估了自然度和演讲者相似度。在Track 1中,模型获得了4.02的演讲者相似度得分,在Track 2中,模型获得了4.17的演讲者相似度得分。
  • 相关研究
    在这个领域中,最近的相关研究包括“End-to-End Text-to-Speech Synthesis with Cross-Language Similarity Loss”和“Multi-Speaker and Multi-Style Tacotron in Emotional Speech Synthesis”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论