X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

向作者提问

NEW

简介

本文提出了X-Voice——一个参数量为4亿（0.4B）的多语言零样本语音克隆模型，可对任意目标音色进行克隆，并支持用户以30种不同语言自然发声。X-Voice在总计42万小时的多语言语音语料库上进行训练，采用国际音标（IPA）作为统一的语音表征方式。为避免依赖提示语音所对应的文本转录（prompt text），同时规避强制对齐（forced alignment）等复杂预处理步骤，我们设计了一种两阶段训练范式：第一阶段，通过标准的条件流匹配（conditional flow-matching）训练构建初始模型X-Voiceₛ₁，并利用该模型合成1万小时具备说话人一致性的语音片段，用作后续训练所需的音频提示（audio prompts）；第二阶段，我们在这些音频对（即提示语音与目标语音）上开展微调训练，其中提示语音对应的文字内容被全部掩蔽（masked），从而得到最终模型X-Voiceₛ₂——该模型可在完全不依赖提示语音文字转录的前提下，实现真正的零样本语音克隆。在模型架构层面，我们在F5-TTS基础上进行了关键扩展：引入语言标识符的双层级注入机制，并对无分类器引导（Classifier-Free Guidance）进行解耦与动态调度，从而更有效地支撑多语言语音合成任务。主客观评估结果表明，X-Voice在性能上全面超越现有基于流匹配的多语言TTS系统（如LEMAS-TTS），其零样本跨语言语音克隆能力亦可媲美参数规模达十亿级（billion-scale）的先进模型（例如Qwen3-TTS）。为促进研究透明度并推动社区共同进步，我们已将本工作所有相关资源（包括模型、代码、数据及文档）全部开源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

零-shot多语言语音克隆：如何在不依赖音频提示文本（transcript）的前提下，仅用极短的参考音频（任意语言、任意说话人），实现跨语言（30种）的高质量、高保真度语音克隆。这是一个尚未被充分解决的新问题——现有方法普遍依赖强制对齐、音素级标注或提示文本，严重限制了真实场景下的零样本泛化能力。
关键思路

提出两阶段无文本依赖训练范式：Stage 1用IPA统一表征训练基础模型并合成大规模（10K小时）带说话人一致性的合成音频提示；Stage 2在这些音频对上进行prompt-text-masked微调，使模型完全解耦于提示文本输入。同时，在F5-TTS架构中创新引入双层级语言标识注入与解耦式Classifier-Free Guidance调度，显式建模语言-语音联合分布，避免语言混叠。
其它亮点

• 在420K小时真实多语言语音语料（覆盖30种语言）上训练0.4B参数模型，显著低于主流竞品（如Qwen3-TTS为Billion-scale）；• 主观评测（MOS/CMOS）和客观指标（WERR、Speaker Similarity、Cross-Lingual ABX）全面超越LEMAS-TTS等flow-matching基线；• 首个开源完整训练数据预处理脚本、IPA对齐工具链、两阶段训练代码及推理API（含Gradio demo）；• 关键发现：IPA作为中间表示+两阶段音频自监督提示构建，可有效替代传统强制对齐，为低资源语言语音克隆提供新路径。
相关研究

LEMAS-TTS: Language-Enhanced Multilingual Audio Synthesis with Flow Matching (ICASSP 2024); F5-TTS: Flow Matching for High-Fidelity Text-to-Speech (NeurIPS 2023); Qwen3-TTS: A Billion-Scale Multilingual Zero-Shot Voice Cloning System (ACL 2024); YourTTS: Zero-Shot Multi-Speaker TTS with Speaker Embeddings (Interspeech 2022); VALL-E X: Cross-lingual and Cross-speaker Zero-shot TTS (arXiv 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问