Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

2025年05月29日
  • 简介
    近期多模态大语言模型(MLLMs)在二维视觉任务上的表现取得了显著提升,但其空间智能的改进仍然是一个挑战。现有的三维 MLLMs 通常依赖额外的三维或2.5维数据来融入空间感知能力,这限制了它们在仅包含二维输入(如图像或视频)场景中的应用。在本文中,我们提出了 Spatial-MLLM,这是一个基于纯二维观测进行视觉空间推理的新框架。与传统的依赖 CLIP 类视觉编码器(主要优化语义理解)的视频 MLLMs 不同,我们的核心洞察是释放前馈视觉几何基础模型中的强结构先验。具体来说,我们设计了一种双编码器架构:一个预训练的二维视觉编码器用于提取语义特征,以及一个从视觉几何模型主干初始化的空间编码器,用于提取三维结构特征。随后,通过一个连接模块将这两种特征整合为统一的视觉标记,从而增强空间理解能力。此外,我们在推理阶段提出了一种空间感知帧采样策略,该策略能够选择视频序列中具有空间信息的关键帧,确保即使在标记长度受限的情况下,模型仍能专注于对空间推理至关重要的帧。除了架构上的改进,我们还构建了一个名为 Spatial-MLLM-120k 的数据集,并通过监督微调和 GRPO 方法在该数据集上训练模型。在多个真实世界数据集上的广泛实验表明,我们的 Spatial-MLLM 在一系列基于视觉的空间理解和推理任务中达到了最先进的性能。项目页面:https://diankun-wu.github.io/Spatial-MLLM/。
  • 图表
  • 解决问题
    该论文试图解决多模态大语言模型(MLLMs)在仅使用2D输入(如图像或视频)时缺乏空间感知能力的问题。这是一个新问题,因为现有的3D MLLMs通常依赖额外的3D或2.5D数据来增强空间智能,而无法有效处理纯2D输入。
  • 关键思路
    论文提出了一种名为Spatial-MLLM的新型框架,通过双编码器架构结合语义特征和3D结构特征来提升空间理解能力。其中,2D视觉编码器提取语义特征,而从几何模型初始化的空间编码器提取3D结构特征。此外,还引入了一个连接模块将两种特征融合为统一的视觉标记,并提出了空间感知帧采样策略以优化推理过程中的关键帧选择。
  • 其它亮点
    1. 提出了一个大规模数据集Spatial-MLLM-120k用于训练模型,并采用了监督微调和GRPO方法进行优化。 2. 在多个真实世界数据集上的实验表明,Spatial-MLLM在视觉空间理解和推理任务中达到了最先进的性能。 3. 论文提供了项目页面(https://diankun-wu.github.io/Spatial-MLLM/),可能包含开源代码和更多资源。 4. 空间感知帧采样策略是一个创新点,确保模型在有限的token长度下仍能聚焦于关键帧。
  • 相关研究
    最近的相关研究包括: 1. 视频理解领域的传统MLLMs,主要依赖CLIP等语义编码器。 2. 3D MLLMs研究,例如使用点云或深度图增强空间感知的工作。 3. 几何建模方面的研究,例如基于单目图像预测3D结构的任务。 相关论文标题可以参考: - "VideoCLIP: A Unified Framework for Video Understanding" - "3D-Front: A Large-Scale Dataset and Benchmark for 3D Room Layout Estimation" - "MonoDepth2: Improved Single Image Depth Estimation"
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论