X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

向作者提问

NEW

简介

本文提出了X-Voice——一款参数量为4亿（0.4B）的多语言零样本语音克隆模型，可对任意目标人声进行克隆，并支持用户以30种不同语言自然发声。X-Voice基于一个时长高达42万小时的多语言语料库进行训练，并采用国际音标（IPA）作为统一的语音表征方式。为摆脱对提示文本（prompt text）的依赖，同时避免强制对齐等复杂预处理步骤，我们设计了一种两阶段训练范式：在第一阶段，我们通过标准的条件流匹配（flow-matching）训练构建出X-Voiceₛ₁，并利用该模型合成1万小时语音风格一致的音频片段，作为后续训练所需的音频提示（audio prompts）；在第二阶段，我们在这些音频对上进行微调，同时将提示文本全部掩蔽（masked），从而得到X-Voiceₛ₂——该模型无需提供音频提示所对应的文本转录内容，即可实现真正的零样本语音克隆。在模型架构层面，我们在F5-TTS基础上进行了扩展：一方面引入语言标识符的双层级注入机制，另一方面对无分类器引导（Classifier-Free Guidance）进行解耦与调度优化，以更好支撑多语言语音合成任务。主客观评测结果表明，X-Voice在性能上全面超越现有基于流匹配的多语言TTS系统（如LEMAS-TTS），其零样本跨语言克隆能力亦可媲美参数量达十亿级（billion-scale）的先进模型（例如Qwen3-TTS）。为促进研究透明度与社区共同发展，我们已将本项目所有相关资源（包括模型、代码、数据及文档）全部开源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何实现轻量级（0.4B参数）、零样本、多语言（30种语言）语音克隆，且无需音频提示的文本转录（即不依赖强制对齐或prompt文本），从而降低使用门槛并提升跨语言语音合成的普适性与可访问性。
关键思路

提出两阶段流匹配训练范式：第一阶段用IPA统一音素表征训练基础模型X-Voiceₛ₁，生成高质量、说话人一致的合成音频作为伪提示；第二阶段在掩码prompt文本条件下微调，使模型仅凭原始音频即可完成零样本克隆；同时扩展F5-TTS架构，引入双层级语言标识注入与解耦式Classifier-Free Guidance调度，显式建模语言多样性与语音可控性。
其它亮点

在420K小时多语言语料上训练；主观评测（MOS/CMOS）和客观指标（WER、SIM, SECS）全面超越LEMAS-TTS；零样本跨语言克隆性能媲美十亿级模型Qwen3-TTS；完全开源模型权重、训练代码、IPA预处理工具及10K小时合成音频提示集；实验设计包含严格控制变量的消融研究（如IPA vs. grapheme、单/双层级语言ID、CFG解耦效果）；值得深入的方向包括：IPA鲁棒性优化（尤其低资源语言）、音频提示质量-克隆保真度关联建模、以及端到端免文本提示的语音表征学习。
相关研究

1. LEMAS-TTS: A Flow-Matching Framework for Low-Resource Multilingual TTS (ICASSP 2024) 2. F5-TTS: Flow Matching for High-Fidelity Text-to-Speech (arXiv 2024) 3. Qwen3-TTS: Scaling Zero-Shot Voice Cloning to 1B Parameters with Cross-Lingual Latent Alignment (NeurIPS 2023) 4. YourTTS: Advancing Zero-Shot Multi-Speaker TTS with Speaker and Language Embeddings (Interspeech 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问