- 简介学习对世界及其动态的可操控表征是人工智能的核心任务。联合嵌入预测架构(JEPAs)提供了一种颇具前景的设计蓝图,但由于缺乏实用指导和理论基础,相关研发工作往往流于临时性尝试。本文提出了关于JEPAs的完整理论体系,并据此构建了LeJEPA——一种简洁、可扩展且具有坚实理论基础的训练目标。首先,我们指出各向同性高斯分布是JEPAs嵌入表示应遵循的最优分布,以最小化下游任务的预测风险。其次,我们提出一种新颖的目标函数——**草图化各向同性高斯正则化**(Sketched Isotropic Gaussian Regularization, SIGReg),用于约束嵌入表示趋近这一理想分布。将JEPA的预测损失与SIGReg相结合,形成了LeJEPA,具备多项理论与实践优势:(i)仅需一个权衡超参数;(ii)时间和内存复杂度均为线性;(iii)在不同超参数、网络架构(如ResNets、ViTs、ConvNets)及应用领域下均表现稳定;(iv)无需启发式设计,例如无需停止梯度(stop-gradient)、无需教师-学生结构(teacher-student)、无需超参数调度机制;(v)支持分布式训练,且实现极为简洁,仅需约50行代码。我们的实验验证涵盖了10多个数据集和60多种架构,涵盖不同规模与领域。例如,在ImageNet-1K上进行预训练,并采用冻结主干网络的线性评估方式时,LeJEPA在ViT-H/14模型上达到了79%的准确率。我们期望LeJEPA所提供的简洁性以及对理论友好的生态系统,能够重新确立自监督预训练作为人工智能研究核心支柱的地位(GitHub仓库地址:\href{https://github.com/rbalestr-lab/lejepa}{GitHub repo})。
-
- 图表
- 解决问题论文旨在解决当前Joint-Embeding Predictive Architectures(JEPAs)在自监督学习中缺乏理论指导和实用训练框架的问题。尽管JEPAs有潜力学习可操作的世界表征,但现有研究多依赖经验性设计(如stop-gradient、teacher-student架构、超参调度等),导致研发过程零散且不稳定。这是一个重要但尚未被充分理论化的问题,尤其是在构建统一、可扩展的自监督学习框架方面。
- 关键思路提出LeJEPA——一个简洁、可扩展且理论驱动的JEPAs训练框架。其核心思想是:通过理论推导发现各向同性高斯分布是JEPAs嵌入空间的理想分布,以最小化下游预测风险;并据此设计新的正则化目标Sketched Isotropic Gaussian Regularization(SIGReg),将嵌入分布拉向该理想形态。结合JEPA预测损失与SIGReg,形成无需复杂机制(如stop-gradient或动量编码器)的单一超参数目标函数。
- 其它亮点亮点包括:仅需一个权衡超参数、线性时间和内存复杂度、跨模型(ResNets、ViTs、ConvNets)和领域高度稳定、无需启发式技巧、分布式训练友好(约50行代码实现)。实验覆盖10多个数据集、60多种架构,在ImageNet-1k上使用ViT-H/14达到79%线性评估准确率。代码已开源(GitHub链接提供),为后续研究提供了简洁可靠的基线,值得进一步探索其在强化学习、世界模型和多模态学习中的应用。
- 1. A Framework for Understanding Representation Learning with Energy-Based Models 2. Data as a Resource: Understanding Generalization in SimCLR 3. Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning (BYOL) 4. Barlow Twins: Self-Supervised Learning via Redundancy Reduction 5. Masked Autoencoders Are Scalable Vision Learners 6. Emerging Properties in Self-Supervised Vision Transformers
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流