Qwen3-TTS Technical Report - 智源社区论文

向作者提问

NEW

简介

本报告介绍了Qwen3-TTS系列模型——一套先进的多语言、可控性强、鲁棒性高且支持流式合成的文本转语音（TTS）模型家族。Qwen3-TTS具备业界领先的3秒语音克隆能力，以及基于自然语言描述的语音控制功能，既可生成完全新颖的虚拟音色，亦可对输出语音进行细粒度调控。该模型在涵盖10种语言、总计逾500万小时的海量语音数据上完成训练；其采用双路语言模型（dual-track LM）架构实现低延迟实时语音合成，并配备两种专用语音分词器（speech tokenizers）： 1）Qwen-TTS-Tokenizer-25Hz 是一种单码本编解码器，侧重于语义信息建模，可与Qwen-Audio模型无缝集成，并借助分块式扩散变换器（block-wise DiT）实现流式波形重建； 2）Qwen-TTS-Tokenizer-12Hz 则通过其12.5 Hz采样率、16层多码本结构及轻量级因果卷积网络（causal ConvNet），实现了极致的码率压缩与超低延迟流式传输，首包响应时间低至97毫秒。大量实验表明，Qwen3-TTS 在多项客观与主观评测基准上均达到当前最优水平（例如：TTS多语言测试集、InstructTTSEval评测集，以及我们自建的长文本语音合成测试集）。为促进学术界与工业界的研究与应用，我们已将上述两类分词器及全部模型以Apache 2.0开源许可证形式向公众免费发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何构建一个真正实用、低延迟、高保真、多语言、可控制且支持零样本语音克隆的端到端TTS系统，尤其满足实时流式合成与细粒度语音操控（如描述驱动音色/情感/风格生成）的实际部署需求。该问题在工业级TTS中长期存在权衡困境：高自然度常以高延迟和不可控性为代价；而低延迟方案往往牺牲语义保真度与跨语言鲁棒性。
关键思路

提出双轨语音表征与协同解码范式：1) 语义优先的25Hz单码本tokenizer（Qwen-TTS-Tokenizer-25Hz）专注高层语义建模，无缝对接大语言模型（Qwen-Audio），支持指令式语音生成；2) 超低延迟12Hz多码本tokenizer（Qwen-TTS-Tokenizer-12Hz）采用16层因果ConvNet与块状DiT重建，实现97ms首包延迟。二者共享同一LM backbone但解耦表征目标，突破传统‘单一codec+autoregressive decoder’架构瓶颈。
其它亮点

• 首个同时实现3秒语音克隆+自然语言描述控制（如‘带笑意的慢速粤语女声’）的开源TTS系列；• 训练数据达500万小时、覆盖10语言，显著超越VALL-E X（~20万小时）、NaturalSpeech 3（~100万小时）；• 在InstructTTSEval（指令遵循率+8.2%）、长语音MOS（+0.42）及多语言WER（平均下降12.7%）上全面SOTA；• 全栈开源：两个tokenizer、全部模型权重、推理引擎及评测脚本，Apache 2.0许可；• 值得深入：双tokenizer动态路由机制、跨语言token迁移能力、DiT在流式语音重建中的理论收敛性。
相关研究

VALL-E X (NeurIPS 2023); NaturalSpeech 3 (ICML 2024); SpeechFlow (ACL 2023); WhisperSpeech (arXiv:2311.00728); SeamlessM4T v2 (Meta, 2024); ECoTTS (ICASSP 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问