- 简介多模态大语言模型(MLLMs)已在通用视频理解任务中取得显著进展,但在处理长时长、高分辨率视频时仍面临挑战——其视觉变换器(ViT)或大语言模型(LLM)对视频中的每一个像素进行同等处理,而实际上视频在时空维度上存在大量冗余。为此,我们提出了一种轻量级模块 AutoGaze,可在视频输入 ViT 或 MLLM 之前,自动剔除冗余图像块(patches)。AutoGaze 采用“下一词预测”目标与强化学习联合训练,以自回归方式动态选取最小规模的多尺度图像块集合,在用户指定的重建误差阈值内完整复原原始视频,从而在最大限度保留关键信息的同时彻底消除冗余。实验表明,AutoGaze 可将视觉 token 数量减少 4 至 100 倍,并使 ViT 和 MLLM 的推理速度最高提升达 19 倍;由此,MLLM 得以成功扩展至包含 1000 帧、分辨率达 4K 的长视频理解任务,并在多项视频基准测试中取得更优性能(例如,在 VideoMME 上准确率达到 67.0%)。此外,我们构建了 HLVid 数据集:这是首个面向高分辨率、长时序视频的问答基准,涵盖时长 5 分钟、分辨率为 4K 的真实视频;在此基准上,经 AutoGaze 扩展后的 MLLM 相比基线模型提升 10.1%,并以 4.5% 的优势超越此前表现最佳的 MLLM。项目主页:https://autogaze.github.io/
-
- 图表
- 解决问题多模态大语言模型(MLLMs)在处理长时长、高分辨率视频时面临计算瓶颈,因其视觉Transformer(ViT)或LLM对所有视频帧的所有像素/视觉token进行均匀处理,而实际视频存在大量时空冗余;该问题在4K、1000帧级长视频理解中尤为突出,现有方法缺乏细粒度、自适应的视觉token压缩机制。
- 关键思路提出AutoGaze——一种轻量级、可训练的自回归视觉token选择模块,不依赖预定义规则或固定采样,而是联合优化重建保真度(用户指定误差阈值内)与token最小化目标;通过next-token预测监督+强化学习联合训练,在推理时动态、多尺度地选取最具信息量的稀疏视觉patches,实现端到端可微/可优化的冗余剔除。
- 其它亮点在VideoMME等主流视频理解基准上达67.0%准确率;视觉token减少4x–100x,ViT/MLLM推理加速最高19x;首次支持1K帧@4K分辨率视频端到端理解;发布全新高质量长视频QA基准HLVid(5分钟、4K、真实场景、多跳问答);开源代码与模型(https://autogaze.github.io/);消融证实多尺度选择与RL优化对长时序建模至关重要;未来方向包括跨模态gaze对齐、在线流式AutoGaze、与视频扩散模型协同压缩。
- Token Merging (ToMe, 2023); Dynamic ViT (DynViT, ICCV 2021); VideoMAE v2 (CVPR 2024); Qwen-VL-2 (2024); Video-LLaMA 2 (2024); EfficientViT (NeurIPS 2023); PatchDrop (ACL 2023 for multimodal)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流