A Simple Baseline for Streaming Video Understanding

向作者提问

NEW

简介

近期的流式视频理解方法日益依赖复杂的记忆机制来处理长时序视频流。我们对这一趋势提出了质疑，并发现了一个简单却有力的现象：仅将最近 N 帧输入现成的视觉语言模型（VLM）所构成的滑动窗口基线方法，其性能已可比肩甚至超越目前已发表的各类流式视频模型。我们将该基线方法形式化定义为 SimpleStream，并在 OVO-Bench 和 StreamingBench 两大基准上，将其与 13 种主流的离线及在线视频大语言模型（Video LLM）基线进行全面对比评估。尽管结构极为简洁，SimpleStream 却展现出稳定而优异的性能表现：仅使用最近 4 帧，它在 OVO-Bench 上即达到 67.7% 的平均准确率，在 StreamingBench 上更高达 80.59%。通过受控的消融实验进一步表明，更长上下文的价值并非随模型规模扩大而单调提升，而是高度依赖于所采用的骨干网络架构；同时，实验还揭示出一种普遍存在的“感知—记忆权衡”现象：增加历史上下文虽有助于提升信息召回能力，却往往削弱模型对当前场景的实时感知精度。这一发现提示我们：除非在相同评估协议下显著优于 SimpleStream，否则任何更强的记忆模块、检索模块或压缩模块，均不应被简单视为技术进步的可靠证据。因此，我们认为，未来面向流式视频理解的评测基准应明确区分“近期场景感知”与“长程记忆建模”两类能力，从而更清晰地评估因引入复杂性所带来的真实性能增益。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文质疑当前流式视频理解研究中盲目堆砌复杂记忆机制的范式，旨在验证一个核心假设：简单滑动窗口（仅输入最近N帧）配合现成视觉语言模型（VLM）能否在性能上匹敌甚至超越精心设计的在线/流式视频大模型——即‘更复杂的记忆是否真有必要？’这是一个对领域方法论根基的批判性检验，虽问题场景（流式视频理解）不新，但其对评估基准和进步标准的反思具有原创性和紧迫性。
关键思路

提出SimpleStream——一种极简基线：不引入任何额外记忆、检索或压缩模块，仅将固定长度（如4帧）的滑动窗口视频帧直接送入冻结的离线VLM（如Qwen-VL、InternVL）进行推理。其核心洞见是解耦‘实时场景感知’与‘长程记忆’，主张前者才是流式理解的首要能力；性能提升若不能显著超越该零成本基线，则不应被视作实质性进步。
其它亮点

在OVO-Bench和StreamingBench两大主流流式视频基准上系统评测13个SOTA离线/在线视频LLM，SimpleStream以仅4帧输入达到67.7%（OVO-Bench）和80.59%（StreamingBench）平均准确率，全面持平或超越多数复杂模型；通过受控消融发现‘长上下文收益非单调’且高度依赖骨干模型架构，揭示固有的感知-记忆权衡；论文呼吁重构流式基准，明确分离‘近期感知’与‘长期记忆’子任务；代码已开源（GitHub: simplestream-org），所有实验严格复现于相同硬件与协议下。
相关研究

‘Video-LLaMA: An Instruction-tuned Audio-Visual Language Model’ (NeurIPS 2023)；‘LongVU: Long Video Understanding with Hierarchical Memory’ (ICLR 2024)；‘StreamingVQA: Benchmarking Real-time Video Question Answering’ (CVPR 2024)；‘MemVid: Memory-Augmented Streaming Video Understanding’ (ECCV 2024)；‘FlashVLM: Efficient Temporal Modeling for Online Video LLMs’ (ACL 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问