- 简介大多数零样本多说话人语音合成(ZS-TTS)系统只支持一种语言。虽然像YourTTS、VALL-E X、Mega-TTS 2和Voicebox这样的模型探索了多语言ZS-TTS,但它们仅限于少数高/中资源语言,限制了这些模型在大多数低/中资源语言中的应用。本文旨在通过提出并公开XTTS系统来缓解这个问题。我们的方法建立在Tortoise模型的基础上,并添加了几个新颖的修改,以实现多语言训练、改进语音克隆并实现更快的训练和推理。XTTS在16种语言中进行了训练,并在其中大多数语言中取得了最先进的结果。
- 图表
- 解决问题XTTS论文旨在提供一种支持多语言的零样本多说话人TTS系统,以解决当前ZS-TTS系统只支持单一语言的问题,同时通过提出多项新的改进措施,进一步提高语音克隆的质量和训练/推理速度。
- 关键思路XTTS系统基于Tortoise模型,引入多语言训练、语音克隆优化和快速训练/推理等新技术,成功支持了16种语言的训练,并在大多数语言上实现了最先进的效果。
- 其它亮点XTTS系统在16种语言上进行了实验,取得了最先进的效果,并且在多语言支持、语音克隆、训练/推理速度等方面都有了显著的改进。此外,XTTS系统已经公开了代码和数据集,为后续的研究提供了便利。
- 目前,已经有一些支持多语言的ZS-TTS系统,如YourTTS、VALL-E X、Mega-TTS 2和Voicebox,但它们仅支持少数高/中资源语言,而XTTS系统支持16种语言,是一个更为全面的解决方案。此外,还有一些相关的研究,如《Zero-Shot Multi-Speaker Text-to-Speech with State-of-the-art Generative Models》和《Multilingual Text-to-Speech with a Single Transformer Model》等。
沙发等你来抢
去评论
评论
沙发等你来抢