NEW

LLaVA-OneVision-2: Towards Next-Generation Perceptual Intelligence

Xiang An ,

Yin Xie ,

Feilong Tang ,

Yunyao Yan ,

Huajie Tan ,

Didi Zhu ,

Changrui Chen ,

Xiuwei Zhao ,

Bin Qin ,

Kaicheng Yang ,

Yifei Shen ,

Yuanhan Zhang ,

Kaichen Zhang ,

Wenkang Zhang ,

Zheng Cheng ,

Nansen Zhang ,

Chunsheng Wu ,

Chunjiang Ge ,

Zimin Ran ,

Dehua Song ,

Chunyuan Li ,

Shikun Feng ,

Ming Hu ,

Zhangquan Chen ,

Junbo Niu ,

Bo Li ,

Ziyong Feng ,

Ziwei Liu ,

Zongyuan Ge ,

Jiankang Deng

热度 386

2026年05月25日

简介

我们推出了LLaVA-OneVision-2（LLaVA-OV-2），这是截至目前LLaVA-OneVision系列中能力最强的视觉—语言模型，在广泛多模态基准测试中均展现出卓越性能。该模型基于原生的OneVision编码器构建，并引入窗口注意力机制（Windowed Attention），在保持原始图像分辨率的同时，实现高效的局部计算。其核心突破在于“编解码流式分词”（codec-stream tokenization）：将压缩视频视为连续的比特代价流（bit-cost stream），其中比特代价的动态变化决定自适应的时间分组，而运动残差线索（motion-residual cues）则用于从视频中筛选出显著的空间证据，并将其聚合为紧凑的视觉画布（visual canvases）。这种分配策略将有限的token预算集中于承载事件信息的内容上，从而实现了比传统固定图像组（group-of-pictures, GOP）方法更稳定、更鲁棒的长视频token压缩效果。此外，共享的三维旋转位置编码（3D RoPE）进一步将编解码画布、采样帧与静态图像统一映射至同一套时空坐标系中。在数据与训练体系方面，我们围绕大规模开放监督信号构建了LLaVA-OV-2的完整训练栈：预训练阶段使用约800万条经重描述（re-captioned）的视频样本；微调阶段则引入一个包含400万样本的空间语义语料库（spatial corpus）。我们还首次提出JumpScore——一种面向时间定位任务的新型评测基准，专注于高频、密集重复运动场景下的细粒度时空定位与接地（grounding），该类场景在现有视频评测体系中长期被严重低估。 LLaVA-OV-2的一项突出能力在于其对多种视觉理解任务的统一感知建模能力，涵盖视频理解、时间定位、空间定位以及操作痕迹推理（manipulation-trace reasoning）。在JumpScore基准上，LLaVA-OneVision-2-8B模型取得74.9的mAP（mean Average Precision）得分，大幅超越Qwen3-VL-8B（30.1），领先达+44.8分；而在相同视觉token预算约束下，采用编解码流式输入相较传统帧采样方式，在时间定位任务上进一步提升+9.7分。在各类标准基准测试中，LLaVA-OneVision-2-8B亦全面超越Qwen3-VL-8B：视频理解任务平均高出+4.3分，空间理解任务高出+5.3分，跟踪任务（以J&F指标衡量）平均高出+15.6分。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在有限视觉token预算下实现高效、稳定、高保真的长视频理解，尤其在细粒度时间定位（如高频重复运动）和统一时空感知（视频、图像、帧序列的联合建模）方面克服现有方法因固定采样或分辨率压缩导致的语义丢失与时序失准问题。
关键思路

提出codec-stream tokenization——将压缩视频解码流视为连续比特成本信号，依据实时bit-cost动态划分自适应时间组，并利用motion-residual线索引导空间显著性选择，生成紧凑视觉画布；结合共享3D RoPE将codec画布、采样帧和静态图像映射到统一spatiotemporal坐标系，实现原生分辨率下的窗口化注意力计算。
其它亮点

1) 首次在VL模型中引入比特流驱动的自适应视频tokenization，显著提升长视频压缩稳定性（+9.7 mAP over frame sampling on JumpScore）；2) 构建全新细粒度时间定位基准JumpScore（聚焦高频重复运动），填补现有视频评测空白；3) 开放8M重标注视频预训练集+4M空间微调语料；4) LLaVA-OV-2-8B在JumpScore达74.9 mAP（超Qwen3-VL-8B 44.8分），视频/空间/跟踪任务全面领先；5) 模型支持统一视频理解、时间接地、空间接地与操作痕迹推理，体现真正多模态原生对齐。
相关研究

LLaVA-OneVision (2024); Qwen-VL / Qwen3-VL (2024); Video-LLaMA (2023); InternVideo (2023); MViT-V2 (2023); TimeSformer (2021); UniFormer (2022); VideoMAE (2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问