LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics

向作者提问

NEW

简介

学习对世界及其动态的可操控表征是人工智能的核心任务。联合嵌入预测架构（JEPAs）提供了一种颇具前景的设计蓝图，但由于缺乏实用指导和理论基础，相关研发工作往往流于临时性尝试。本文提出了关于JEPAs的完整理论体系，并据此构建了LeJEPA——一种简洁、可扩展且具有坚实理论基础的训练目标。首先，我们指出各向同性高斯分布是JEPAs嵌入表示应遵循的最优分布，以最小化下游任务的预测风险。其次，我们提出一种新颖的目标函数——**草图化各向同性高斯正则化**（Sketched Isotropic Gaussian Regularization, SIGReg），用于约束嵌入表示趋近这一理想分布。将JEPA的预测损失与SIGReg相结合，形成了LeJEPA，具备多项理论与实践优势：（i）仅需一个权衡超参数；（ii）时间和内存复杂度均为线性；（iii）在不同超参数、网络架构（如ResNets、ViTs、ConvNets）及应用领域下均表现稳定；（iv）无需启发式设计，例如无需停止梯度（stop-gradient）、无需教师-学生结构（teacher-student）、无需超参数调度机制；（v）支持分布式训练，且实现极为简洁，仅需约50行代码。我们的实验验证涵盖了10多个数据集和60多种架构，涵盖不同规模与领域。例如，在ImageNet-1K上进行预训练，并采用冻结主干网络的线性评估方式时，LeJEPA在ViT-H/14模型上达到了79%的准确率。我们期望LeJEPA所提供的简洁性以及对理论友好的生态系统，能够重新确立自监督预训练作为人工智能研究核心支柱的地位（GitHub仓库地址：\href{https://github.com/rbalestr-lab/lejepa}{GitHub repo}）。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文旨在解决当前Joint-Embeding Predictive Architectures（JEPAs）在自监督学习中缺乏理论指导和实用训练框架的问题。尽管JEPAs有潜力学习可操作的世界表征，但现有研究多依赖经验性设计（如stop-gradient、teacher-student架构、超参调度等），导致研发过程零散且不稳定。这是一个重要但尚未被充分理论化的问题，尤其是在构建统一、可扩展的自监督学习框架方面。
关键思路

提出LeJEPA——一个简洁、可扩展且理论驱动的JEPAs训练框架。其核心思想是：通过理论推导发现各向同性高斯分布是JEPAs嵌入空间的理想分布，以最小化下游预测风险；并据此设计新的正则化目标Sketched Isotropic Gaussian Regularization（SIGReg），将嵌入分布拉向该理想形态。结合JEPA预测损失与SIGReg，形成无需复杂机制（如stop-gradient或动量编码器）的单一超参数目标函数。
其它亮点

亮点包括：仅需一个权衡超参数、线性时间和内存复杂度、跨模型（ResNets、ViTs、ConvNets）和领域高度稳定、无需启发式技巧、分布式训练友好（约50行代码实现）。实验覆盖10多个数据集、60多种架构，在ImageNet-1k上使用ViT-H/14达到79%线性评估准确率。代码已开源（GitHub链接提供），为后续研究提供了简洁可靠的基线，值得进一步探索其在强化学习、世界模型和多模态学习中的应用。
相关研究

1. A Framework for Understanding Representation Learning with Energy-Based Models 2. Data as a Resource: Understanding Generalization in SimCLR 3. Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning (BYOL) 4. Barlow Twins: Self-Supervised Learning via Redundancy Reduction 5. Masked Autoencoders Are Scalable Vision Learners 6. Emerging Properties in Self-Supervised Vision Transformers

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问