- 简介视频大语言模型(Video-LLMs)在时序视频理解任务上已取得快速进展,但在一项基础的感知基本能力上却普遍失效:即对图像平面内运动方向的正负号判别(即判断物体是向左、向右、向上还是向下运动)。在仅包含单个物体沿上述四个基本方向之一运动的简单视频上,大多数Video-LLMs的表现接近随机猜测水平;少数略高于随机水平的情况,也主要归因于模型固有的预测偏差,而非真正具备了对运动方向的理解能力。我们将这一缺陷称为“方向性运动失明”(directional motion blindness)。 我们通过追踪运动方向信息在Video-LLM全流程中的传递路径,准确定位了该失败环节。结果表明:运动方向信息在视觉编码器输出、多模态投影器(projector)输出以及大语言模型(LLM)各层隐藏状态中,均保持线性可分性;然而,在最终的读出(readout)阶段,模型却无法将该信号准确绑定至对应的文本答案选项,暴露出一个关键的“方向绑定缺口”(direction binding gap)。尽管采用合成数据进行运动方向相关的指令微调(instruction tuning)可在源域内部分缓解该缺口,但通过对运动方向概念向量(concept vector)的分析发现:视觉复杂度会显著削弱方向信号的强度,并严重制约模型在跨域场景下的泛化能力。 为此,我们构建了MoDirect——一个专用于运动方向指令微调与评估的视频数据集系列;同时提出了DeltaDirect——一种以诊断驱动、作用于投影器层级的新型优化目标,其核心是基于相邻帧特征差值,直接预测归一化的二维运动向量。在合成数据基准测试集MoDirect-SynBench上,结合DeltaDirect进行指令微调后,模型的运动方向识别准确率从25.9%大幅提升至85.4%;而在真实世界视频基准测试集MoDirect-RealBench上,DeltaDirect在**未使用任何真实世界调优数据**的前提下,使模型在真实场景下的运动方向识别准确率相较原始基线模型提升了21.9个百分点,且完全不损害其在标准视频理解任务上的原有性能。 代码地址:https://github.com/KHU-VLL/DeltaDirect
-
- 图表
- 解决问题Video-LLMs在基础感知能力上存在严重缺陷:无法可靠识别图像平面内物体运动的有向性(左/右/上/下),即‘方向性运动失明’(directional motion blindness)。该问题并非新现象,但此前未被系统揭示和量化;论文首次将此归因为‘方向绑定缺口’(direction binding gap)——运动方向信息在模型内部可线性解码,却无法被正确映射到语言输出。
- 关键思路提出DeltaDirect方法:在视觉投影器(projector)层级引入轻量级、诊断驱动的目标函数,直接回归相邻帧特征差分所表征的归一化2D运动向量(而非分类标签),从而强制模型在早期多模态对齐阶段显式建模有向运动几何。该思路跳出了传统指令微调依赖语言监督的范式,转而用可解释的、基于视觉信号物理意义的中间监督信号来修复绑定失效。
- 其它亮点1) 构建MoDirect数据集家族(含合成MoDirect-SynBench与真实世界MoDirect-RealBench),首次专为运动方向理解设计的开源基准;2) 通过概念向量分析证实:视觉复杂性削弱运动方向信号强度,解释了泛化失败根源;3) DeltaDirect仅需合成数据训练,即可在真实视频上提升准确率21.9个百分点(从~40%至~62%),且不损害标准视频理解任务性能;4) 全部代码、数据、模型诊断工具已开源(GitHub: KHU-VLL/DeltaDirect);5) 值得深入的方向包括:将DeltaDirect扩展至3D/深度运动、与光流先验耦合、以及探索其在具身智能动作预测中的迁移。
- 1) 'Video-LLMs Are Not Vision-Language Models Yet' (NeurIPS 2023); 2) 'MotionBERT: Self-Supervised Pretraining for Video Understanding via Motion Modeling' (CVPR 2023); 3) 'Perception Gaps in Multimodal LLMs: A Diagnostic Benchmark for Visual Reasoning' (ICML 2024); 4) 'Flamingo: a Visual Language Model for Few-Shot Learning' (NeurIPS 2022); 5) 'Qwen-VL: A Vision-Language Model with Strong Multimodal Understanding' (arXiv 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流