Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

2025年10月14日
  • 简介
    视觉-语言-动作(VLA)模型最近展现出强大的潜力,能够使机器人遵循语言指令并执行精确的动作。然而,大多数VLA模型基于仅在二维数据上预训练的视觉-语言模型构建,这类模型缺乏准确的空间感知能力,限制了其在三维物理世界中的操作性能。现有解决方案试图引入显式的三维传感器输入,如深度图或点云,但这些方法因传感器噪声、硬件差异以及现有数据集中深度覆盖不完整而面临挑战。另一些通过二维图像估计三维线索的方法也受限于深度估计算法性能不足的问题。本文提出“空间强制”(Spatial Forcing, SF),这是一种简单而有效的对齐策略,能够在不依赖显式三维输入或深度估计算法的前提下,隐式地促使VLA模型发展出空间理解能力。SF通过将VLA模型中间层的视觉嵌入与预训练三维基础模型生成的几何表征进行对齐,从而在中间网络层施加约束,引导VLA模型编码更丰富的空间信息,提升动作执行的精确性。大量在仿真和真实环境中的实验表明,SF取得了当前最先进的性能,超越了基于二维和三维输入的各类VLA模型。此外,SF还将训练速度提升了最高达3.8倍,并在多种机器人任务中显著提高了数据利用效率。项目主页为 https://spatial-forcing.github.io/
  • 作者讲解
  • 图表
  • 解决问题
    现有的视觉-语言-动作(VLA)模型主要基于在2D数据上预训练的视觉-语言模型,缺乏对3D物理空间的准确理解,导致机器人在执行语言指令时动作精度受限。虽然已有方法尝试引入显式的3D传感器输入(如深度图、点云)或从2D图像估计深度,但这些方法受限于传感器噪声、硬件差异、数据覆盖不全以及深度估计性能不足。因此,如何在不依赖显式3D输入或深度估计器的情况下提升VLA模型的空间感知能力,成为一个关键挑战。
  • 关键思路
    提出Spatial Forcing(SF),一种简单而有效的对齐策略,通过将VLA模型中间层的视觉嵌入与预训练的3D基础模型生成的几何表征进行对齐,隐式地迫使VLA模型发展出空间理解能力。该方法不依赖任何显式3D输入或深度估计模块,而是利用中间层对齐引导模型学习更丰富的空间表示,从而提升动作执行的精确性。相比现有方法,SF无需修改传感器配置或依赖不稳定的深度估计,是一种更鲁棒、可扩展的解决方案。
  • 其它亮点
    在仿真和真实世界环境中进行了广泛实验,SF在多个机器人任务上达到SOTA性能,优于基于2D和3D的VLA模型;训练速度提升高达3.8倍,显著提高数据效率;方法通用性强,适用于不同VLA架构;项目已开源,代码和模型可在https://spatial-forcing.github.io/ 获取;未来可探索更多3D基础模型作为监督源,或将SF应用于多智能体或动态场景。
  • 相关研究
    1. Florence-1: A Foundation Model for Vision and Language Tasks 2. PaLM-E: An Embodied Multimodal Language Model 3. RT-2: Vision-Language-Action Models for Robot Control 4. OpenVLA: An Open-Source Framework for Vision-Language-Action Modeling 5. MonoDepth: Towards Robust Monocular Depth Estimation
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问