X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

2026年05月07日
  • 简介
    本文提出了X-Voice——一个参数量为4亿(0.4B)的多语言零样本语音克隆模型,可对任意目标音色进行克隆,并支持用户以30种不同语言自然发声。X-Voice在总计42万小时的多语言语音语料库上进行训练,采用国际音标(IPA)作为统一的语音表征方式。为避免依赖提示语音所对应的文本转录(prompt text),同时规避强制对齐(forced alignment)等复杂预处理步骤,我们设计了一种两阶段训练范式:第一阶段,通过标准的条件流匹配(conditional flow-matching)训练构建初始模型X-Voiceₛ₁,并利用该模型合成1万小时具备说话人一致性的语音片段,用作后续训练所需的音频提示(audio prompts);第二阶段,我们在这些音频对(即提示语音与目标语音)上开展微调训练,其中提示语音对应的文字内容被全部掩蔽(masked),从而得到最终模型X-Voiceₛ₂——该模型可在完全不依赖提示语音文字转录的前提下,实现真正的零样本语音克隆。在模型架构层面,我们在F5-TTS基础上进行了关键扩展:引入语言标识符的双层级注入机制,并对无分类器引导(Classifier-Free Guidance)进行解耦与动态调度,从而更有效地支撑多语言语音合成任务。主客观评估结果表明,X-Voice在性能上全面超越现有基于流匹配的多语言TTS系统(如LEMAS-TTS),其零样本跨语言语音克隆能力亦可媲美参数规模达十亿级(billion-scale)的先进模型(例如Qwen3-TTS)。为促进研究透明度并推动社区共同进步,我们已将本工作所有相关资源(包括模型、代码、数据及文档)全部开源。
  • 作者讲解
  • 图表
  • 解决问题
    零-shot多语言语音克隆:如何在不依赖音频提示文本(transcript)的前提下,仅用极短的参考音频(任意语言、任意说话人),实现跨语言(30种)的高质量、高保真度语音克隆。这是一个尚未被充分解决的新问题——现有方法普遍依赖强制对齐、音素级标注或提示文本,严重限制了真实场景下的零样本泛化能力。
  • 关键思路
    提出两阶段无文本依赖训练范式:Stage 1用IPA统一表征训练基础模型并合成大规模(10K小时)带说话人一致性的合成音频提示;Stage 2在这些音频对上进行prompt-text-masked微调,使模型完全解耦于提示文本输入。同时,在F5-TTS架构中创新引入双层级语言标识注入与解耦式Classifier-Free Guidance调度,显式建模语言-语音联合分布,避免语言混叠。
  • 其它亮点
    • 在420K小时真实多语言语音语料(覆盖30种语言)上训练0.4B参数模型,显著低于主流竞品(如Qwen3-TTS为Billion-scale);• 主观评测(MOS/CMOS)和客观指标(WERR、Speaker Similarity、Cross-Lingual ABX)全面超越LEMAS-TTS等flow-matching基线;• 首个开源完整训练数据预处理脚本、IPA对齐工具链、两阶段训练代码及推理API(含Gradio demo);• 关键发现:IPA作为中间表示+两阶段音频自监督提示构建,可有效替代传统强制对齐,为低资源语言语音克隆提供新路径。
  • 相关研究
    LEMAS-TTS: Language-Enhanced Multilingual Audio Synthesis with Flow Matching (ICASSP 2024); F5-TTS: Flow Matching for High-Fidelity Text-to-Speech (NeurIPS 2023); Qwen3-TTS: A Billion-Scale Multilingual Zero-Shot Voice Cloning System (ACL 2024); YourTTS: Zero-Shot Multi-Speaker TTS with Speaker Embeddings (Interspeech 2022); VALL-E X: Cross-lingual and Cross-speaker Zero-shot TTS (arXiv 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问