Time Blindness: Why Video-Language Models Can't See What Humans Can?

向作者提问

NEW

简介

近年来，视觉-语言模型（VLMs）在理解视频中的时空关系方面取得了令人印象深刻的进展。然而，当空间信息被遮蔽时，这些模型难以捕捉纯粹的时序模式。我们提出了 **SpookyBench**，这是一个基准测试，在其中信息仅编码在类似噪声的帧的时序序列中，模拟了从生物信号到隐秘通信的自然现象。有趣的是，尽管人类能够以超过 98% 的准确率识别这些序列中的形状、文本和模式，但最先进的 VLMs 在相同任务上的准确率为 0%。这种性能差距揭示了一个关键限制：这些模型过度依赖帧级别的空间特征，且无法从时序线索中提取意义。此外，在低空间信噪比（SNR）的数据集上训练时，模型的时序理解能力比人类感知退化得更快，尤其是在需要精细时序推理的任务中。克服这一限制需要设计新的架构或训练范式，以解耦空间依赖与时序处理。我们的系统分析表明，这一问题在不同规模和架构的模型中普遍存在。我们发布 SpookyBench，旨在推动时序模式识别的研究，并弥合人类与机器在视频理解之间的差距。数据集和代码已在我们的项目网站上公开：https://timeblindness.github.io/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前视觉语言模型（VLMs）在处理视频时对空间特征的过度依赖问题，特别是在空间信息被遮挡或弱化时，模型无法有效提取纯时间模式的问题。这是一个新问题，通过设计一个名为SpookyBench的基准测试来验证模型的时间理解能力。
关键思路

论文提出了一种全新的基准测试SpookyBench，其中信息仅编码在类似噪声的帧的时间序列中，以此评估模型对纯时间模式的理解能力。相比现有研究，该论文强调了将时间和空间处理解耦的重要性，并指出现有模型架构和训练方法在低空间信噪比（SNR）条件下的局限性。
其它亮点

实验设计巧妙，通过人类与模型的表现对比，揭示了模型在时间模式理解上的显著差距。SpookyBench数据集已开源，并附带代码，为未来研究提供了基础。此外，研究发现这一问题存在于不同规模和架构的模型中，表明需要开发新的架构或训练方法。值得深入研究的方向包括如何设计更高效的时间建模机制以及探索人类时间感知的神经科学基础。
相关研究

近期相关研究包括：1) 时间序列建模领域的研究，如“Time-Series Modeling with Stacked Transformers”；2) 视频理解中的时空特征分离研究，例如“Disentangling Space and Time in Video Prediction”；3) 人类视觉系统的时间感知模拟研究，如“Neural Mechanisms for Temporal Pattern Recognition”。这些工作均从不同角度探讨了时间模式的建模问题，但尚未像本论文一样直接揭示模型的时间理解局限性。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问