NEW

A Very Big Video Reasoning Suite

Maijunxian Wang ,

Ruisi Wang ,

Juyi Lin ,

Ran Ji ,

Thaddäus Wiedemer ,

Qingying Gao ,

Dezhi Luo ,

Yaoyao Qian ,

Lianyu Huang ,

Zelong Hong ,

Jiahui Ge ,

Qianli Ma ,

Hang He ,

Yifan Zhou ,

Lingzi Guo ,

Lantao Mei ,

Jiachen Li ,

Hanwen Xing ,

Tianqi Zhao ,

Fengyuan Yu ,

Weihang Xiao ,

Yizheng Jiao ,

Jianheng Hou ,

Danyang Zhang ,

Pengcheng Xu ,

Boyang Zhong ,

Zehong Zhao ,

Gaoyun Fang ,

John Kitaoka ,

Yile Xu ,

Hua Xu ,

Kenton Blacutt ,

Tin Nguyen ,

Siyuan Song ,

Haoran Sun ,

Shaoyue Wen ,

Linyang He ,

Runming Wang ,

Yanzhi Wang ,

Mengyue Yang ,

Ziqiao Ma ,

Raphaël Millière ,

Freda Shi ,

Nuno Vasconcelos ,

Daniel Khashabi ,

Alan Yuille ,

Yilun Du ,

Ziming Liu ,

Bo Li ,

Dahua Lin ,

Ziwei Liu ,

Vikash Kumar ,

Yijiang Li ,

Lei Yang ,

Zhongang Cai ,

Hokin Deng

热度 446

2026年02月23日

简介

视频模型的快速发展长期以来主要聚焦于视觉质量的提升，而对其推理能力的探索却相对不足。视频推理将智能建立在时空一致的视觉环境基础之上，这种环境所蕴含的信息远超文本所能自然表达的范畴，从而支持对连续性、交互性与因果性等时空结构进行直观推理。然而，由于缺乏大规模训练数据，视频推理能力及其随模型规模扩展而表现出的规律性（即“缩放行为”）一直难以开展系统性研究。为填补这一空白，我们推出了“超大规模视频推理数据集”（VBVR），这是迄今规模空前的视频推理资源：它涵盖200项经过精心设计、遵循严谨分类体系的推理任务，并包含逾一百万段视频片段——其体量比现有同类数据集高出约三个数量级。此外，我们还提出了VBVR-Bench评估框架，该框架突破了依赖大模型打分的传统范式，转而采用基于规则、且与人类判断高度一致的评分器，从而实现对视频推理能力可复现、可解释的精准诊断。依托VBVR整套工具，我们开展了迄今首批大规模视频推理缩放研究之一，并首次观察到模型在未见过的新型推理任务上展现出初步的“涌现式泛化”能力。综上，VBVR为构建具备通用性的视频推理能力奠定了坚实基础。全部数据、基准测试工具包及预训练模型均已开源，公众可通过 https://video-reason.com/ 免费获取。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

视频模型的快速发展长期聚焦于视觉质量提升，而其高层推理能力（如时空连续性、物体交互、因果推断等）缺乏系统性研究；现有工作受限于小规模、低多样性、缺乏结构化任务定义的视频推理数据集，导致无法可靠评估和规模化研究视频推理能力。
关键思路

提出VBVR（Very Big Video Reasoning）范式：1）基于原则性认知 taxonomy 构建200个细粒度、语义明确的视频推理任务；2）生成超百万级（~10^6）、spatiotemporally-consistent、程序化可控的合成视频片段（比现有最大数据集大三个数量级）；3）设计VBVR-Bench——首个采用规则驱动、可验证、人类对齐的确定性评分器（而非黑盒LLM评判）的评测框架，实现可复现、可归因、可解释的能力诊断。
其它亮点

首次开展大规模视频推理缩放律研究，发现跨任务泛化能力随模型规模/数据量增长呈现早期涌现现象；所有资源完全开源（数据、评测工具链、基线模型）；视频全部程序化生成，保证标注绝对准确、因果逻辑可追溯；评测支持细粒度能力分解（如‘碰撞检测’vs‘counterfactual intervention’）；实验覆盖从ViT-Base到ViT-Giga多尺度视觉编码器及多阶段微调策略；值得深入的方向包括：真实世界迁移、具身交互扩展、与语言模型协同的联合推理架构。
相关研究

VideoQA (2017), TGIF-QA (2018), NExT-QA (2021), EgoSchema (2023), CausalVidQA (2023), Physion (2022), CLEVRER (2020), CoPhy (2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问