- 简介视觉-语言模型(VLM)有望为实时助手和自主智能体提供动力,但其面临一个关键挑战:如何在不增加延迟和内存消耗的前提下理解近乎无限的视频流。若对整个视频采用全注意力机制进行处理,会导致计算成本呈平方级增长,并在长视频上表现不佳。与此同时,简单的滑动窗口方法也存在缺陷,它们要么破坏上下文连贯性,要么因重复计算而导致高延迟。本文提出了StreamingVLM,一种专为实时、稳定地理解无限视觉输入而设计的模型。我们的方法是一种统一的框架,使训练过程与流式推理保持一致。在推理过程中,我们通过复用注意力锚点(attention sinks)的状态、一个较短的近期视觉标记窗口以及一个较长的近期文本标记窗口,来维护一个紧凑的KV缓存。这种流式处理能力通过一种简单的监督微调(SFT)策略实现,该策略对短小且重叠的视频片段应用全注意力机制,有效模拟了推理时的注意力模式,而无需在过长的上下文中进行训练。为了评估模型性能,我们构建了Inf-Streams-Eval——一个包含平均超过两小时视频的新基准测试集,要求帧与文本之间实现密集的、每秒级别的对齐。在Inf-Streams-Eval上,StreamingVLM对阵GPT-4O mini取得了66.18%的胜率,并在单块NVIDIA H100上以高达8 FPS的速度保持稳定、实时的性能。值得注意的是,我们的SFT策略在无需任何针对视觉问答(VQA)任务专门微调的情况下,也显著提升了模型在通用VQA任务上的能力,在LongVideoBench上提升了+4.30,在OVOBench Realtime上提升了+5.96。代码已公开于https://github.com/mit-han-lab/streaming-vlm。
-
- 图表
- 解决问题论文试图解决视觉语言模型(VLMs)在处理无限长视频流时面临的计算复杂度高、内存占用大和延迟严重的问题。现有方法如全注意力机制导致计算成本呈二次增长,而滑动窗口方法则破坏上下文连贯性或引入冗余计算。这是一个随着实时智能助手和自主代理需求上升而日益突出的新挑战。
- 关键思路提出StreamingVLM,一种支持实时、稳定理解无限视觉输入的统一框架。其核心思想是在推理过程中维护一个紧凑的KV缓存,复用注意力汇(attention sinks)的状态、近期视觉token的短窗口和文本token的长窗口。训练上采用简单的监督微调(SFT)策略,在重叠的短视频片段上应用全注意力,模拟推理时的注意力模式,避免了对超长上下文的直接训练。该方法首次实现了训练与流式推理的一致性设计。
- 其它亮点构建了新的评测基准Inf-Streams-Eval,包含平均超过两小时的长视频,要求帧与文本之间每秒级对齐;在该基准上,StreamingVLM以66.18%胜率击败GPT-4O mini,并在单张NVIDIA H100上实现最高8 FPS的实时性能;SFT策略意外提升了通用视觉问答能力,在LongVideoBench提升+4.30,在OVOBench Realtime提升+5.96;代码已开源,项目地址为 https://github.com/mit-han-lab/streaming-vlm;未来可探索更高效的KV缓存压缩机制及跨模态流式对齐优化。
- 近期相关研究包括:《LongNet: Scaling Transformers to 1,000,000,000 Tokens》提出的稀疏注意力扩展序列长度;《Efficient Memory Management for Streaming Language Models via Adaptive Cache Compression》探讨流式语言模型中的缓存压缩;《StreamingLLM: Continuous Language Model Pretraining from Long-Context Streams》提出流式预训练范式;《ChunkVLM: Streaming Vision-Language Modeling by Chunked Attention》类似地使用分块注意力处理长视频但缺乏训练-推理一致性设计。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流