Qwen3-VL Technical Report

2025年11月26日
  • 简介
    我们推出Qwen3-VL,这是截至目前通义系列中最强大的视觉语言模型,在广泛的多模态基准测试中均展现出卓越性能。该模型原生支持长达256K token的交错式上下文,能够无缝整合文本、图像与视频内容。模型家族包含密集型(2B/4B/8B/32B)和混合专家型(30B-A3B/235B-A22B)多种版本,以满足不同场景下对延迟与质量的权衡需求。Qwen3-VL在三个方面实现了核心突破:(i)显著增强的纯文本理解能力,在多项指标上超越同类纯文本基座模型;(ii)强大的长上下文理解能力,原生支持256K token的文本及交错式多模态输入,可在长文档和视频中实现准确的信息保留、检索与交叉引用;(iii)先进的多模态推理能力,在单图、多图及视频任务中均表现突出,在MMMU和视觉数学类综合评测(如MathVista和MathVision)中达到领先水平。在架构层面,我们引入三项关键技术升级:(i)改进的交错式MRoPE机制,提升图像与视频中的时空建模能力;(ii)DeepStack集成方案,有效利用多层级ViT特征,增强视觉与语言模态之间的对齐;(iii)基于文本的时间对齐方法用于视频处理,从T-RoPE演进为显式的文本化时间戳对齐,实现更精确的时序定位。在相近的token预算与延迟限制下,Qwen3-VL在密集型与混合专家型架构中均实现了更优性能。我们期望Qwen3-VL能成为现实工作流中基于图像的推理、智能体决策以及多模态代码理解的核心引擎。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决现有视觉-语言模型在长上下文理解、多模态(文本、图像、视频)交织输入处理以及跨模态推理能力上的局限性。特别是,当前模型在支持超长上下文(如256K tokens)、细粒度时空建模和复杂多模态任务(如数学视觉推理、视频时间定位)方面表现不足。该问题随着多模态应用在真实场景中的扩展而变得日益重要,虽非全新问题,但Qwen3-VL将其推向了更高标准。
  • 关键思路
    提出Qwen3-VL系列模型,通过三大架构升级实现突破:1)改进的交错式多尺度RoPE(interleaved-MRoPE),增强图像与视频中的空间-时间建模;2)DeepStack机制融合多层级ViT特征,提升视觉与语言表征对齐精度;3)从T-RoPE演进为基于文本的时间戳对齐(text-based time alignment),实现更精确的视频时序定位。同时支持高达256K token的原生上下文窗口,并推出密集与MoE两种架构以适应不同质量-延迟权衡。
  • 其它亮点
    Qwen3-VL在多个维度展现领先性能:在MMMU、MathVista、MathVision等权威多模态基准上达到SOTA;支持256K token原生上下文下的图文视频交错输入;实验涵盖单图、多图、视频理解及视觉数学推理任务;模型家族包含2B至235B参数量级,满足多样化部署需求。使用大规模私有图文视频数据进行训练,未明确提及开源代码或数据集,但其系统设计为后续研究提供了可借鉴的工程与算法范式,尤其值得深入探索的是长上下文多模态记忆保持与跨媒体检索机制。
  • 相关研究
    1. LLaVA: Large Language and Vision Assistant 2. Flamingo: A Visual Language Model for Few-Shot Learning 3. PaLM-E: An Embodied Multimodal Language Model 4. KOSMOS-1: Multimodal Foundation Model with a Large-Scale Language Model Backbone 5. VideoLLM: Towards Scalable Video-Language Learning as a Service 6. mPLUG-Owl3: High-Performance Visual Language Understanding with Adaptive Aggregation
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问