Causal-JEPA: Learning World Models through Object-Level Latent Interventions

向作者提问

NEW

简介

世界模型需要具备稳健的关系理解能力，以支撑预测、推理与控制等任务。尽管以物体为中心的表征（object-centric representations）提供了一种有用的抽象方式，但它尚不足以刻画依赖于物体间交互的动力学行为。因此，我们提出了C-JEPA——一种简洁而灵活的以物体为中心的世界模型，它将面向图像块（image patches）的掩码联合嵌入预测（masked joint embedding prediction）方法，拓展至以物体为中心的表征层面。通过在物体层级实施掩码（object-level masking），即强制模型仅依据其他物体的状态来推断被掩码物体的状态，C-JEPA在隐空间中引入了具有类反事实效应（counterfactual-like effects）的潜在干预（latent interventions），从而有效规避捷径式解法（shortcut solutions），使对交互关系的显式推理成为必要环节。实验结果表明，C-JEPA在视觉问答任务中实现了持续稳定的性能提升：在反事实推理任务上，相较于未采用物体层级掩码的相同架构，其绝对准确率提升了约20%。在智能体控制任务中，C-JEPA显著提升了规划效率——仅需使用基于图像块的世界模型所需全部潜在输入特征的1%，即可达到相当的性能水平。最后，我们给出了形式化分析，严格证明了物体层级掩码可通过潜在干预机制，在模型中引入因果归纳偏置（causal inductive bias）。我们的代码已开源，地址为：https://github.com/galilai-group/cjepa。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有对象中心化世界模型虽能抽象物体状态，但难以建模对象间交互依赖的动力学（如碰撞、遮挡、因果干预），导致在反事实推理、规划和控制任务中泛化性不足；该问题本质是缺乏对关系动态的显式因果归纳偏置。
关键思路

提出C-JEPA（Causal Joint Embedding Predictive Architecture）：将JEPA框架从图像块级掩码扩展到对象级掩码——即随机遮蔽某个对象的状态（位置/速度/属性），强制模型仅通过其余对象的观测来预测其状态，从而隐式引入可学习的潜在干预（latent interventions），天然建模对象间因果依赖关系。
其它亮点

实验表明：（1）在视觉问答任务中反事实推理准确率绝对提升约20%；（2）在智能体控制任务中仅需1%的潜在特征维度即达patch-based基线性能，显著提升规划效率；（3）提供形式化证明，阐明对象级掩码如何诱导因果归纳偏置；（4）代码已开源（https://github.com/galilai-group/cjepa）；值得深入的方向包括：将C-JEPA与分层强化学习结合、拓展至多模态因果世界建模、以及在真实机器人系统中验证其泛化干预能力。
相关研究

JEPA (LeCun, 2022); Object-Centric Learning with Slot Attention (Locatello et al., ICML 2020); Causal World Models via Interventional Contrastive Learning (Das et al., NeurIPS 2023); SCALOR: Unsupervised Object-centric Representation Learning (Jiang et al., ICLR 2021); GNN-based Dynamics Prediction (Sanchez-Gonzalez et al., NeurIPS 2020)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问