- 简介本文提出了X-Voice——一款参数量为4亿(0.4B)的多语言零样本语音克隆模型,可对任意目标人声进行克隆,并支持用户以30种不同语言自然发声。X-Voice基于一个时长高达42万小时的多语言语料库进行训练,并采用国际音标(IPA)作为统一的语音表征方式。为摆脱对提示文本(prompt text)的依赖,同时避免强制对齐等复杂预处理步骤,我们设计了一种两阶段训练范式:在第一阶段,我们通过标准的条件流匹配(flow-matching)训练构建出X-Voiceₛ₁,并利用该模型合成1万小时语音风格一致的音频片段,作为后续训练所需的音频提示(audio prompts);在第二阶段,我们在这些音频对上进行微调,同时将提示文本全部掩蔽(masked),从而得到X-Voiceₛ₂——该模型无需提供音频提示所对应的文本转录内容,即可实现真正的零样本语音克隆。在模型架构层面,我们在F5-TTS基础上进行了扩展:一方面引入语言标识符的双层级注入机制,另一方面对无分类器引导(Classifier-Free Guidance)进行解耦与调度优化,以更好支撑多语言语音合成任务。主客观评测结果表明,X-Voice在性能上全面超越现有基于流匹配的多语言TTS系统(如LEMAS-TTS),其零样本跨语言克隆能力亦可媲美参数量达十亿级(billion-scale)的先进模型(例如Qwen3-TTS)。为促进研究透明度与社区共同发展,我们已将本项目所有相关资源(包括模型、代码、数据及文档)全部开源。
-
- 图表
- 解决问题如何实现轻量级(0.4B参数)、零样本、多语言(30种语言)语音克隆,且无需音频提示的文本转录(即不依赖强制对齐或prompt文本),从而降低使用门槛并提升跨语言语音合成的普适性与可访问性。
- 关键思路提出两阶段流匹配训练范式:第一阶段用IPA统一音素表征训练基础模型X-Voiceₛ₁,生成高质量、说话人一致的合成音频作为伪提示;第二阶段在掩码prompt文本条件下微调,使模型仅凭原始音频即可完成零样本克隆;同时扩展F5-TTS架构,引入双层级语言标识注入与解耦式Classifier-Free Guidance调度,显式建模语言多样性与语音可控性。
- 其它亮点在420K小时多语言语料上训练;主观评测(MOS/CMOS)和客观指标(WER、SIM, SECS)全面超越LEMAS-TTS;零样本跨语言克隆性能媲美十亿级模型Qwen3-TTS;完全开源模型权重、训练代码、IPA预处理工具及10K小时合成音频提示集;实验设计包含严格控制变量的消融研究(如IPA vs. grapheme、单/双层级语言ID、CFG解耦效果);值得深入的方向包括:IPA鲁棒性优化(尤其低资源语言)、音频提示质量-克隆保真度关联建模、以及端到端免文本提示的语音表征学习。
- 1. LEMAS-TTS: A Flow-Matching Framework for Low-Resource Multilingual TTS (ICASSP 2024) 2. F5-TTS: Flow Matching for High-Fidelity Text-to-Speech (arXiv 2024) 3. Qwen3-TTS: Scaling Zero-Shot Voice Cloning to 1B Parameters with Cross-Lingual Latent Alignment (NeurIPS 2023) 4. YourTTS: Advancing Zero-Shot Multi-Speaker TTS with Speaker and Language Embeddings (Interspeech 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流