Cambrian-P: Pose-Grounded Video Understanding

向作者提问

NEW

简介

相机位姿至关重要。每个视角的位置与朝向共同定义了一个统一的空间坐标系，从而建立起视频各帧观测之间的空间关联。然而，当前面向视频理解的多模态大语言模型（MLLM）却普遍忽略了这一关键信号：它们将视频帧视为彼此孤立的二维图像快照，而非人类所感知的那种具有连续空间结构的持久化场景。我们重新审视相机位姿作为一种轻量级监督信号的价值，并提出Cambrian-P——一种专为视频理解设计的多模态大语言模型，其在每帧中引入可学习的相机标记（camera tokens），并配备专门用于位姿回归的预测头（pose regression head）。借助精心设计的采样策略，该模型在VSI-Bench等空间推理基准测试上取得了4.5%–6.5%的显著性能提升；同时，在另外八个涵盖空间推理与通用视频问答任务的基准测试中均展现出优异的泛化能力；此外，作为副产物，其在ScanNet数据集上实现了当前最优的流式相机位姿估计性能。尤为令人意外的是，仅使用野外采集视频自动生成的伪标注位姿进行训练，竟也能进一步提升通用视频问答基准的表现，表明相机位姿的作用远不止于空间推理本身。综上所述，这些结果共同确立了相机位姿作为视频模型理解物理世界的一项基础性信号地位。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有视频多模态大语言模型（MLLMs）将视频帧视为孤立的2D图像，忽略相机位姿（camera pose）所隐含的3D空间一致性与跨帧几何约束，导致模型难以进行物理世界中的空间推理（如物体相对位置、运动轨迹、场景布局等）。该问题长期被忽视，尽管人类视觉系统天然依赖稳定的共享3D坐标系来理解连续视频。这是一个被低估但本质重要的新问题——并非单纯提升视频表征，而是重建视频理解的几何根基。
关键思路

将相机位姿（6-DoF pose）作为轻量级、可学习的监督信号引入视频MLLM训练：1）为每帧注入可训练的‘相机令牌’（camera tokens），与视觉/语言token联合建模；2）添加轻量化的位姿回归头（pose regression head），端到端联合优化理解与几何估计；3）采用精心设计的帧采样策略（兼顾时间连续性与视角多样性），使模型隐式学习场景的持久3D结构。核心新意在于：不依赖昂贵3D标注或显式神经辐射场，仅用弱监督（伪标注或自监督pose）即可让纯视频LLM自发获得空间感知能力。
其它亮点

在VSI-Bench空间推理基准上提升4.5–6.5%；泛化至8个额外空间与通用视频QA基准（如VideoMME、NExT-QA）；意外达成ScanNet上的流式位姿估计SOTA；关键发现：即使使用Web视频中自生成的伪位姿（via COLMAP+video SfM）训练，也能提升通用视频问答性能，证明位姿是超越空间任务的通用归纳偏置；论文未开源代码，但明确描述了伪标注流程（COLMAP + 光流对齐）；值得深入的方向包括：位姿token的跨视频迁移、与SLAM模块的联合训练、以及在具身智能中的实时闭环应用。
相关研究

1) 'Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding' (ACL 2023); 2) 'InternVideo: A General Framework for Human-Centric Video Understanding' (NeurIPS 2023); 3) '3D-LLM: Integrating 3D Scene Representations into Large Language Models' (CVPR 2024); 4) 'Pose-LLM: Leveraging Camera Pose for Embodied Navigation' (ICLR 2024 Workshop); 5) 'GeoChat: Spatial Reasoning in Multimodal LLMs via Geometric Constraints' (arXiv 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问