NEW

Qwen3-VL Technical Report

Shuai Bai ,

Yuxuan Cai ,

Ruizhe Chen ,

Keqin Chen ,

Xionghui Chen ,

Zesen Cheng ,

Lianghao Deng ,

Wei Ding ,

Chang Gao ,

Chunjiang Ge ,

Wenbin Ge ,

Zhifang Guo ,

Qidong Huang ,

Jie Huang ,

Fei Huang ,

Binyuan Hui ,

Shutong Jiang ,

Zhaohai Li ,

Mingsheng Li ,

Mei Li ,

Kaixin Li ,

Zicheng Lin ,

Junyang Lin ,

Xuejing Liu ,

Jiawei Liu ,

Chenglong Liu ,

Yang Liu ,

Dayiheng Liu ,

Shixuan Liu ,

Dunjie Lu ,

Ruilin Luo ,

Chenxu Lv ,

Rui Men ,

Lingchen Meng ,

Xuancheng Ren ,

Xingzhang Ren ,

Sibo Song ,

Yuchong Sun ,

Jun Tang ,

Jianhong Tu ,

Jianqiang Wan ,

Peng Wang ,

Pengfei Wang ,

Qiuyue Wang ,

Yuxuan Wang ,

Tianbao Xie ,

Yiheng Xu ,

Haiyang Xu ,

Jin Xu ,

Zhibo Yang ,

Mingkun Yang ,

Jianxin Yang ,

An Yang ,

Bowen Yu ,

Fei Zhang ,

Hang Zhang ,

Xi Zhang ,

Bo Zheng ,

Humen Zhong ,

Jingren Zhou ,

Fan Zhou ,

Jing Zhou ,

Yuanzhi Zhu ,

Ke Zhu

热度 142

2025年11月26日

简介

我们推出Qwen3-VL，这是截至目前通义系列中最强大的视觉语言模型，在广泛的多模态基准测试中均展现出卓越性能。该模型原生支持长达256K token的交错式上下文，能够无缝整合文本、图像与视频内容。模型家族包含密集型（2B/4B/8B/32B）和混合专家型（30B-A3B/235B-A22B）多种版本，以满足不同场景下对延迟与质量的权衡需求。Qwen3-VL在三个方面实现了核心突破：（i）显著增强的纯文本理解能力，在多项指标上超越同类纯文本基座模型；（ii）强大的长上下文理解能力，原生支持256K token的文本及交错式多模态输入，可在长文档和视频中实现准确的信息保留、检索与交叉引用；（iii）先进的多模态推理能力，在单图、多图及视频任务中均表现突出，在MMMU和视觉数学类综合评测（如MathVista和MathVision）中达到领先水平。在架构层面，我们引入三项关键技术升级：（i）改进的交错式MRoPE机制，提升图像与视频中的时空建模能力；（ii）DeepStack集成方案，有效利用多层级ViT特征，增强视觉与语言模态之间的对齐；（iii）基于文本的时间对齐方法用于视频处理，从T-RoPE演进为显式的文本化时间戳对齐，实现更精确的时序定位。在相近的token预算与延迟限制下，Qwen3-VL在密集型与混合专家型架构中均实现了更优性能。我们期望Qwen3-VL能成为现实工作流中基于图像的推理、智能体决策以及多模态代码理解的核心引擎。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决现有视觉-语言模型在长上下文理解、多模态（文本、图像、视频）交织输入处理以及跨模态推理能力上的局限性。特别是，当前模型在支持超长上下文（如256K tokens）、细粒度时空建模和复杂多模态任务（如数学视觉推理、视频时间定位）方面表现不足。该问题随着多模态应用在真实场景中的扩展而变得日益重要，虽非全新问题，但Qwen3-VL将其推向了更高标准。
关键思路

提出Qwen3-VL系列模型，通过三大架构升级实现突破：1）改进的交错式多尺度RoPE（interleaved-MRoPE），增强图像与视频中的空间-时间建模；2）DeepStack机制融合多层级ViT特征，提升视觉与语言表征对齐精度；3）从T-RoPE演进为基于文本的时间戳对齐（text-based time alignment），实现更精确的视频时序定位。同时支持高达256K token的原生上下文窗口，并推出密集与MoE两种架构以适应不同质量-延迟权衡。
其它亮点

Qwen3-VL在多个维度展现领先性能：在MMMU、MathVista、MathVision等权威多模态基准上达到SOTA；支持256K token原生上下文下的图文视频交错输入；实验涵盖单图、多图、视频理解及视觉数学推理任务；模型家族包含2B至235B参数量级，满足多样化部署需求。使用大规模私有图文视频数据进行训练，未明确提及开源代码或数据集，但其系统设计为后续研究提供了可借鉴的工程与算法范式，尤其值得深入探索的是长上下文多模态记忆保持与跨媒体检索机制。
相关研究

1. LLaVA: Large Language and Vision Assistant 2. Flamingo: A Visual Language Model for Few-Shot Learning 3. PaLM-E: An Embodied Multimodal Language Model 4. KOSMOS-1: Multimodal Foundation Model with a Large-Scale Language Model Backbone 5. VideoLLM: Towards Scalable Video-Language Learning as a Service 6. mPLUG-Owl3: High-Performance Visual Language Understanding with Adaptive Aggregation

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问