- 简介本报告介绍了Qwen3-TTS系列模型——一套先进的多语言、可控性强、鲁棒性高且支持流式合成的文本转语音(TTS)模型家族。Qwen3-TTS具备业界领先的3秒语音克隆能力,以及基于自然语言描述的语音控制功能,既可生成完全新颖的虚拟音色,亦可对输出语音进行细粒度调控。该模型在涵盖10种语言、总计逾500万小时的海量语音数据上完成训练;其采用双路语言模型(dual-track LM)架构实现低延迟实时语音合成,并配备两种专用语音分词器(speech tokenizers): 1)Qwen-TTS-Tokenizer-25Hz 是一种单码本编解码器,侧重于语义信息建模,可与Qwen-Audio模型无缝集成,并借助分块式扩散变换器(block-wise DiT)实现流式波形重建; 2)Qwen-TTS-Tokenizer-12Hz 则通过其12.5 Hz采样率、16层多码本结构及轻量级因果卷积网络(causal ConvNet),实现了极致的码率压缩与超低延迟流式传输,首包响应时间低至97毫秒。 大量实验表明,Qwen3-TTS 在多项客观与主观评测基准上均达到当前最优水平(例如:TTS多语言测试集、InstructTTSEval评测集,以及我们自建的长文本语音合成测试集)。为促进学术界与工业界的研究与应用,我们已将上述两类分词器及全部模型以Apache 2.0开源许可证形式向公众免费发布。
-
- 图表
- 解决问题如何构建一个真正实用、低延迟、高保真、多语言、可控制且支持零样本语音克隆的端到端TTS系统,尤其满足实时流式合成与细粒度语音操控(如描述驱动音色/情感/风格生成)的实际部署需求。该问题在工业级TTS中长期存在权衡困境:高自然度常以高延迟和不可控性为代价;而低延迟方案往往牺牲语义保真度与跨语言鲁棒性。
- 关键思路提出双轨语音表征与协同解码范式:1) 语义优先的25Hz单码本tokenizer(Qwen-TTS-Tokenizer-25Hz)专注高层语义建模,无缝对接大语言模型(Qwen-Audio),支持指令式语音生成;2) 超低延迟12Hz多码本tokenizer(Qwen-TTS-Tokenizer-12Hz)采用16层因果ConvNet与块状DiT重建,实现97ms首包延迟。二者共享同一LM backbone但解耦表征目标,突破传统‘单一codec+autoregressive decoder’架构瓶颈。
- 其它亮点• 首个同时实现3秒语音克隆+自然语言描述控制(如‘带笑意的慢速粤语女声’)的开源TTS系列;• 训练数据达500万小时、覆盖10语言,显著超越VALL-E X(~20万小时)、NaturalSpeech 3(~100万小时);• 在InstructTTSEval(指令遵循率+8.2%)、长语音MOS(+0.42)及多语言WER(平均下降12.7%)上全面SOTA;• 全栈开源:两个tokenizer、全部模型权重、推理引擎及评测脚本,Apache 2.0许可;• 值得深入:双tokenizer动态路由机制、跨语言token迁移能力、DiT在流式语音重建中的理论收敛性。
- VALL-E X (NeurIPS 2023); NaturalSpeech 3 (ICML 2024); SpeechFlow (ACL 2023); WhisperSpeech (arXiv:2311.00728); SeamlessM4T v2 (Meta, 2024); ECoTTS (ICASSP 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流