- 简介视频模型的快速发展长期以来主要聚焦于视觉质量的提升,而对其推理能力的探索却相对不足。视频推理将智能建立在时空一致的视觉环境基础之上,这种环境所蕴含的信息远超文本所能自然表达的范畴,从而支持对连续性、交互性与因果性等时空结构进行直观推理。然而,由于缺乏大规模训练数据,视频推理能力及其随模型规模扩展而表现出的规律性(即“缩放行为”)一直难以开展系统性研究。为填补这一空白,我们推出了“超大规模视频推理数据集”(VBVR),这是迄今规模空前的视频推理资源:它涵盖200项经过精心设计、遵循严谨分类体系的推理任务,并包含逾一百万段视频片段——其体量比现有同类数据集高出约三个数量级。此外,我们还提出了VBVR-Bench评估框架,该框架突破了依赖大模型打分的传统范式,转而采用基于规则、且与人类判断高度一致的评分器,从而实现对视频推理能力可复现、可解释的精准诊断。依托VBVR整套工具,我们开展了迄今首批大规模视频推理缩放研究之一,并首次观察到模型在未见过的新型推理任务上展现出初步的“涌现式泛化”能力。综上,VBVR为构建具备通用性的视频推理能力奠定了坚实基础。全部数据、基准测试工具包及预训练模型均已开源,公众可通过 https://video-reason.com/ 免费获取。
-
- 图表
- 解决问题视频模型的快速发展长期聚焦于视觉质量提升,而其高层推理能力(如时空连续性、物体交互、因果推断等)缺乏系统性研究;现有工作受限于小规模、低多样性、缺乏结构化任务定义的视频推理数据集,导致无法可靠评估和规模化研究视频推理能力。
- 关键思路提出VBVR(Very Big Video Reasoning)范式:1)基于原则性认知 taxonomy 构建200个细粒度、语义明确的视频推理任务;2)生成超百万级(~10^6)、spatiotemporally-consistent、程序化可控的合成视频片段(比现有最大数据集大三个数量级);3)设计VBVR-Bench——首个采用规则驱动、可验证、人类对齐的确定性评分器(而非黑盒LLM评判)的评测框架,实现可复现、可归因、可解释的能力诊断。
- 其它亮点首次开展大规模视频推理缩放律研究,发现跨任务泛化能力随模型规模/数据量增长呈现早期涌现现象;所有资源完全开源(数据、评测工具链、基线模型);视频全部程序化生成,保证标注绝对准确、因果逻辑可追溯;评测支持细粒度能力分解(如‘碰撞检测’vs‘counterfactual intervention’);实验覆盖从ViT-Base到ViT-Giga多尺度视觉编码器及多阶段微调策略;值得深入的方向包括:真实世界迁移、具身交互扩展、与语言模型协同的联合推理架构。
- VideoQA (2017), TGIF-QA (2018), NExT-QA (2021), EgoSchema (2023), CausalVidQA (2023), Physion (2022), CLEVRER (2020), CoPhy (2021)


提问交流