Cambrian-S: Towards Spatial Supersensing in Video

向作者提问

NEW

简介

我们认为，实现真正的多模态智能需要从被动的、任务驱动的系统以及暴力扩展上下文长度的方法，转向一种更广泛的“超感知”范式。我们将空间超感知定义为超越纯语言理解的四个阶段：语义感知（命名所见内容）、流式事件认知（在连续体验中保持记忆）、隐式的三维空间认知（推断像素背后的世界），以及预测性世界建模（构建能够筛选和组织信息的内部模型）。当前的基准测试主要仅覆盖前两个早期阶段，对空间认知的评估范围狭窄，极少挑战模型是否具备真正的世界建模能力。为了推动空间超感知的发展，我们提出了VSI-SUPER这一包含两部分的基准测试：VSR（长视野视觉空间回忆）和VSC（持续视觉空间计数）。这些任务要求处理任意长度的视频输入，但难以通过简单扩大上下文窗口来解决。接着，我们通过构建VSI-590K数据集并训练Cambrian-S模型，探索了数据规模的极限，在不牺牲通用能力的前提下，在VSI-Bench上实现了绝对30%的性能提升。然而，模型在VSI-SUPER上的表现仍然有限，表明仅靠规模扩张不足以实现空间超感知。我们提出“预测性感知”作为前进方向，并展示了一个概念验证方案：一个自监督的下一时序潜在帧预测器利用“惊奇感”（即预测误差）来驱动记忆更新和事件分割。在VSI-SUPER上的实验结果表明，该方法显著优于当前领先的专有基线模型，说明空间超感知需要的不仅是“看见”，更要能够“预见”、“选择”并“组织”经验的模型。
作者讲解·3
- 讲解视频(1)
- 相关报道(2)
图表
解决问题

当前多模态人工智能系统主要依赖任务驱动的反应式架构和暴力扩展上下文长度，缺乏对空间感知与持续环境建模的深层理解能力。论文试图验证：仅靠模型规模扩展无法实现真正的空间超感知（spatial supersensing），需要新的范式来支持语义感知、事件记忆、隐式3D空间推理和预测性世界建模。这是一个尚未被充分探索的新问题，尤其是在长时序、连续视觉输入下的智能体式感知。
关键思路

提出‘空间超感知’四阶段框架：语义感知、流式事件认知、隐式3D空间认知和预测性世界建模，并设计了抵抗暴力上下文扩展的VSI-SUPER基准（包含VSR和VSC两个子任务）。关键新意在于从被动识别转向主动预测，引入‘预测性感知’理念——通过自监督的下一潜在帧预测器利用预测误差（surprise）驱动记忆更新与事件分割，使模型能主动筛选和组织经验。
其它亮点

构建了大规模数据集VSI-590K并训练Cambrian-S模型，在VSI-Bench上取得+30%提升但仍在VSI-SUPER上表现有限，证明规模不足；VSI-SUPER任务设计强调任意长视频输入且难以通过上下文堆叠解决；实验验证了基于预测误差的记忆机制显著优于现有闭源基线；代码与数据集已开源，为后续研究提供基础；值得深入的方向包括动态记忆压缩、跨模态预测建模及神经符号结合的世界模型。
相关研究

1. 'PaLM-E: An Embodied Multimodal Language Model' (ICRA 2023) 2. 'Flamingo: a Visual Language Model for Few-Shot Learning' (NeurIPS 2022) 3. 'VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training' (ICLR 2023) 4. 'MIMO: Modality Interaction Matters for Multimodal Object counting' (CVPR 2023) 5. 'InternVideo2: Hard Negative Mining and Bilateral Contrastive Learning for Video-Language Understanding' (2024)

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问