A Lightweight Library for Energy-Based Joint-Embedding Predictive Architectures

2026年02月03日
  • 简介
    我们推出了 EB-JEPA——一个开源库,用于基于联合嵌入预测架构(Joint-Embedding Predictive Architecture, JEPAs)学习表征与世界模型。JEPAs 在表征空间而非像素空间中进行预测,从而规避了生成式建模的固有缺陷,同时捕获具备语义意义的特征,适用于各类下游任务。本库提供模块化、自包含的实现方案,清晰展示了为图像级自监督学习所发展的表征学习技术,如何迁移应用于视频建模(此时需额外处理时间动态带来的复杂性),并最终拓展至动作条件化的世界模型(此时模型还需学习预测控制输入所引发的状态变化)。每个示例均针对单张 GPU 设计,训练耗时仅数小时,使基于能量函数的自监督学习真正成为科研与教学中可及、易用的工具。我们在 CIFAR-10 数据集上对 JEPA 各核心组件进行了消融实验;对所学表征开展线性探针评估,准确率达 91%,表明模型确实习得了富有判别力的有效特征。进一步扩展至视频领域,我们提供了在 Moving MNIST 数据集上的多步预测示例,验证了相同建模原理可自然延展至时间序列建模任务。最后,我们展示了如何利用这些表征构建动作条件化的世界模型,并在“双房间”(Two Rooms)导航任务中实现了高达 97% 的规划成功率。全面的消融分析揭示:每一项正则化组件对于防止表征坍缩均起着不可或缺的关键作用。全部代码已开源,地址为 https://github.com/facebookresearch/eb_jepa。
  • 作者讲解
  • 图表
  • 解决问题
    如何在不依赖像素级 reconstruction 的前提下,高效、稳定地学习具有语义意义的表征,并将该范式从图像扩展到视频建模,最终延伸至动作条件下的世界模型(即能预测智能体行为后果的模型),同时避免表征坍塌与计算过载。这不是全新问题,但EB-JEPA首次系统性地将能量基JEPA框架统一应用于图像→视频→行动建模三级演进,并强调单GPU可训、教育友好的工程实现。
  • 关键思路
    提出EB-JEPA——一种基于能量函数的联合嵌入预测架构(JEPA)开源库,核心是放弃生成式像素重建,转而在隐空间中对目标表示(如遮蔽区域、未来帧、动作扰动后的状态)进行对比式/能量式预测;通过显式正则化(如InfoNCE、VICReg、stop-gradient设计)防止坍塌,并模块化支持从静态图像(CIFAR-10)→动态视频(Moving MNIST)→具身世界模型(Two Rooms导航)的渐进式建模。其新意在于将JEPA从理论构想落地为可复现、可教学、可扩展的统一代码基座。
  • 其它亮点
    • 所有实验均支持单GPU数小时内完成训练(教育友好);• 在CIFAR-10上线性探针达91%准确率,验证表征质量;• Moving MNIST上实现多步视频预测,证明时序泛化能力;• Two Rooms任务中规划成功率97%,展示世界模型实用性;• 提供完整消融实验,证实各正则项(如variance、covariance、invariance loss)缺一不可;• 代码完全开源(GitHub)、文档清晰、模块解耦,含详细教程与配置;• 值得深入的方向:JEPA与LLM-based world models融合、低样本JEPA微调、跨模态(视觉+语言)JEPA扩展。
  • 相关研究
    • 'Self-Supervised Learning of Visual Features by Predicting Image Representations' (Caron et al., ICCV 2023); • 'Masked Autoencoders Are Scalable Vision Learners' (He et al., CVPR 2022); • 'World Models' (Ha & Schmidhuber, arXiv 2018); • 'Joint-Embedding Predictive Architectures: A New Paradigm for Self-Supervised Learning' (LeCun, 2022 Keynote); • 'VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training' (Fei et al., NeurIPS 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问