- 简介世界模型需要具备稳健的关系理解能力,以支撑预测、推理与控制等任务。尽管以物体为中心的表征(object-centric representations)提供了一种有用的抽象方式,但它尚不足以刻画依赖于物体间交互的动力学行为。因此,我们提出了C-JEPA——一种简洁而灵活的以物体为中心的世界模型,它将面向图像块(image patches)的掩码联合嵌入预测(masked joint embedding prediction)方法,拓展至以物体为中心的表征层面。通过在物体层级实施掩码(object-level masking),即强制模型仅依据其他物体的状态来推断被掩码物体的状态,C-JEPA在隐空间中引入了具有类反事实效应(counterfactual-like effects)的潜在干预(latent interventions),从而有效规避捷径式解法(shortcut solutions),使对交互关系的显式推理成为必要环节。实验结果表明,C-JEPA在视觉问答任务中实现了持续稳定的性能提升:在反事实推理任务上,相较于未采用物体层级掩码的相同架构,其绝对准确率提升了约20%。在智能体控制任务中,C-JEPA显著提升了规划效率——仅需使用基于图像块的世界模型所需全部潜在输入特征的1%,即可达到相当的性能水平。最后,我们给出了形式化分析,严格证明了物体层级掩码可通过潜在干预机制,在模型中引入因果归纳偏置(causal inductive bias)。我们的代码已开源,地址为:https://github.com/galilai-group/cjepa。
-
- 图表
- 解决问题现有对象中心化世界模型虽能抽象物体状态,但难以建模对象间交互依赖的动力学(如碰撞、遮挡、因果干预),导致在反事实推理、规划和控制任务中泛化性不足;该问题本质是缺乏对关系动态的显式因果归纳偏置。
- 关键思路提出C-JEPA(Causal Joint Embedding Predictive Architecture):将JEPA框架从图像块级掩码扩展到对象级掩码——即随机遮蔽某个对象的状态(位置/速度/属性),强制模型仅通过其余对象的观测来预测其状态,从而隐式引入可学习的潜在干预(latent interventions),天然建模对象间因果依赖关系。
- 其它亮点实验表明:(1)在视觉问答任务中反事实推理准确率绝对提升约20%;(2)在智能体控制任务中仅需1%的潜在特征维度即达patch-based基线性能,显著提升规划效率;(3)提供形式化证明,阐明对象级掩码如何诱导因果归纳偏置;(4)代码已开源(https://github.com/galilai-group/cjepa);值得深入的方向包括:将C-JEPA与分层强化学习结合、拓展至多模态因果世界建模、以及在真实机器人系统中验证其泛化干预能力。
- JEPA (LeCun, 2022); Object-Centric Learning with Slot Attention (Locatello et al., ICML 2020); Causal World Models via Interventional Contrastive Learning (Das et al., NeurIPS 2023); SCALOR: Unsupervised Object-centric Representation Learning (Jiang et al., ICLR 2021); GNN-based Dynamics Prediction (Sanchez-Gonzalez et al., NeurIPS 2020)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流