Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

向作者提问

NEW

简介

多模态大语言模型（MLLMs）已在通用视频理解任务中取得显著进展，但在处理长时长、高分辨率视频时仍面临挑战——其视觉变换器（ViT）或大语言模型（LLM）对视频中的每一个像素进行同等处理，而实际上视频在时空维度上存在大量冗余。为此，我们提出了一种轻量级模块 AutoGaze，可在视频输入 ViT 或 MLLM 之前，自动剔除冗余图像块（patches）。AutoGaze 采用“下一词预测”目标与强化学习联合训练，以自回归方式动态选取最小规模的多尺度图像块集合，在用户指定的重建误差阈值内完整复原原始视频，从而在最大限度保留关键信息的同时彻底消除冗余。实验表明，AutoGaze 可将视觉 token 数量减少 4 至 100 倍，并使 ViT 和 MLLM 的推理速度最高提升达 19 倍；由此，MLLM 得以成功扩展至包含 1000 帧、分辨率达 4K 的长视频理解任务，并在多项视频基准测试中取得更优性能（例如，在 VideoMME 上准确率达到 67.0%）。此外，我们构建了 HLVid 数据集：这是首个面向高分辨率、长时序视频的问答基准，涵盖时长 5 分钟、分辨率为 4K 的真实视频；在此基准上，经 AutoGaze 扩展后的 MLLM 相比基线模型提升 10.1%，并以 4.5% 的优势超越此前表现最佳的 MLLM。项目主页：https://autogaze.github.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

多模态大语言模型（MLLMs）在处理长时长、高分辨率视频时面临计算瓶颈，因其视觉Transformer（ViT）或LLM对所有视频帧的所有像素/视觉token进行均匀处理，而实际视频存在大量时空冗余；该问题在4K、1000帧级长视频理解中尤为突出，现有方法缺乏细粒度、自适应的视觉token压缩机制。
关键思路

提出AutoGaze——一种轻量级、可训练的自回归视觉token选择模块，不依赖预定义规则或固定采样，而是联合优化重建保真度（用户指定误差阈值内）与token最小化目标；通过next-token预测监督+强化学习联合训练，在推理时动态、多尺度地选取最具信息量的稀疏视觉patches，实现端到端可微/可优化的冗余剔除。
其它亮点

在VideoMME等主流视频理解基准上达67.0%准确率；视觉token减少4x–100x，ViT/MLLM推理加速最高19x；首次支持1K帧@4K分辨率视频端到端理解；发布全新高质量长视频QA基准HLVid（5分钟、4K、真实场景、多跳问答）；开源代码与模型（https://autogaze.github.io/）；消融证实多尺度选择与RL优化对长时序建模至关重要；未来方向包括跨模态gaze对齐、在线流式AutoGaze、与视频扩散模型协同压缩。
相关研究

Token Merging (ToMe, 2023); Dynamic ViT (DynViT, ICCV 2021); VideoMAE v2 (CVPR 2024); Qwen-VL-2 (2024); Video-LLaMA 2 (2024); EfficientViT (NeurIPS 2023); PatchDrop (ACL 2023 for multimodal)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问