- 简介我们推出Qwen3-Omni,这是首个在文本、图像、音频和视频多种模态上均保持最先进性能的单一多模态模型,且相对于单模态模型没有任何性能损失。Qwen3-Omni在Qwen系列中与同规模的单模态模型性能相当,并在音频任务上表现尤为突出。在涵盖36项音频及音视频基准测试中,Qwen3-Omni在32项上达到开源领域的最先进水平,在22项上实现整体最先进水平,超越了Gemini-2.5-Pro、Seed-ASR和GPT-4o-Transcribe等强大的闭源模型。Qwen3-Omni采用“思考者-说话者”混合专家(Thinker-Talker MoE)架构,统一了文本、图像、音频和视频的感知与生成能力,能够输出流畅的文本和自然的实时语音。该模型支持119种语言的文本交互、19种语言的语音理解以及10种语言的语音生成。为了降低流式合成中的首包延迟,“说话者”模块采用多码本方案,自回归地预测离散语音编解码数据。借助这些码本的表征能力,我们用轻量级因果卷积神经网络(causal ConvNet)替代了计算密集的分块扩散模型,从而实现从第一个语音码本帧开始即可流式输出。在冷启动场景下,Qwen3-Omni的端到端理论首包延迟低至234毫秒。为进一步增强多模态推理能力,我们引入了一个“思考”模型,能够对任意模态的输入进行显式推理。由于当前学术界尚缺乏通用的音频描述生成模型,我们对Qwen3-Omni-30B-A3B进行了微调,得到Qwen3-Omni-30B-A3B-Captioner,该模型可为任意音频输入生成细节丰富、幻觉较少的描述文本。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking以及Qwen3-Omni-30B-A3B-Captioner均已通过Apache 2.0许可证向公众开放。
- 图表
- 解决问题论文旨在解决多模态模型在处理文本、图像、音频和视频时性能下降的问题,尤其是相对于单模态模型的表现差距。传统多模态模型往往在融合多种模态信息时牺牲某一模态的性能,而本文试图验证:是否可以构建一个统一的多模态模型,在所有模态上均达到与同规模单模态模型相当甚至更优的性能,特别是在音频理解和生成任务中。
- 关键思路提出Qwen3-Omni,采用Thinker-Talker MoE(专家混合)架构,统一感知与生成过程。其中Thinker模块负责跨模态推理,Talker模块通过多码本方案自回归预测离散语音编解码单元,结合轻量级因果ConvNet替代计算密集型扩散模型,实现极低延迟的流式语音合成。这是首次在一个单一模型中实现文本、图像、音频、视频全面不降质的多模态SOTA表现。
- 其它亮点Qwen3-Omni在36个音频及音视频基准中取得32项开源SOTA和22项整体SOTA,超越Gemini-2.5-Pro、GPT-4o-Transcribe等闭源模型;支持119种语言文本交互、19种语言语音理解、10种语言语音生成;冷启动下端到端首包延迟理论低至234ms;推出专用于音频描述的衍生模型Qwen3-Omni-30B-A3B-Captioner,填补了通用音频字幕模型的空白;三个核心模型均已开源,遵循Apache 2.0许可,代码与数据集有望推动社区发展。
- 1. Gemini: A Family of Highly Capable Multimodal Models 2. GPT-4o: Advancing Real-Time Multimodal Interaction 3. Seed-ASR: Scaling Speech Recognition to Billion-Hour Data 4. Flamingo: A Visual Language Model for Few-Shot Learning 5. PaLM-E: An Embodied Multimodal Language Model 6. LLaVA: Large Language and Vision Assistant 7. AudioPaLM: A Unified Model for Speech Understanding and Generation
沙发等你来抢
去评论
评论
沙发等你来抢