Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density

2025年10月07日
  • 简介
    联合嵌入预测架构(JEPAs)能够学习到开箱即用、适用于多种下游任务的表示。JEPAs结合了两个目标:(i)潜在空间的预测项,即从原始样本的表示中应能预测出轻微扰动后样本的表示;(ii)防坍缩项,即并非所有样本都应具有相同的表示。尽管人们通常认为(ii)仅仅是防止表示坍缩的显而易见的解决方案,但我们发现,JEPAs中的防坍缩项作用远不止于此——它实际上能够估计数据的密度。简言之,任何成功训练的JEPA模型都可以用于获取样本的概率,例如用于数据筛选、异常检测,或直接进行密度估计。我们的理论发现与所使用的数据集和模型架构无关——无论何种情况,均可通过模型在样本 $x$ 处的雅可比矩阵,以闭式形式高效地计算出该样本的学习概率。我们在多个数据集(合成数据、受控数据以及ImageNet)上,对属于JEPA家族的不同自监督学习方法(如I-JEPA和DINOv2),以及多模态模型(如MetaCLIP)进行了实证验证。我们将提取JEPA所学密度的方法命名为{\bf JEPA-SCORE}。
  • 图表
  • 解决问题
    论文试图解决的问题是:自监督学习中的Joint Embedding Predictive Architectures(JEPAs)虽然被广泛用于学习可迁移的表示,但其反坍缩(anti-collapse)项的作用长期以来仅被视为防止表示崩溃的手段。本文提出并验证了一个假设:该反坍缩项实际上隐式地学习了数据密度分布,从而使得任何训练成功的JEPA模型都能直接用于密度估计、异常检测和样本评分等任务——这是一个此前未被充分认识的新视角。
  • 关键思路
    论文的关键思想是揭示JEPAs中反坍缩项不仅仅防止表示崩溃,而是从理论上证明它实际上在学习数据的概率密度。通过分析模型表示函数的雅可比矩阵,可以在闭式形式下高效计算每个样本的对数概率密度,无需额外训练。这一发现使JEPA模型具备了传统生成模型(如VAE、Flow)才有的密度估计能力,但又不依赖显式的生成建模过程。
  • 其它亮点
    论文在理论层面提供了通用且严谨的证明,适用于任意数据集和架构;实验覆盖合成数据、控制数据集、ImageNet,并验证了I-JEPA、DINOv2和MetaCLIP等多种JEPA类模型均能提取有效密度分数;提出了JEPA-SCORE方法,可直接从预训练模型中计算样本概率;代码虽未明确提及开源,但方法具有即插即用特性,未来可用于数据清洗、异常检测等实际场景;值得深入探索的方向包括将JEPA-SCORE集成到主动学习或鲁棒训练流程中。
  • 相关研究
    1. 'A Theory of JEPAs: Representation Learning via Information Maximization' (2023) 2. 'Data as a Resource: Rethinking Self-Supervised Learning through Information Theory' (ICML 2024) 3. 'DINOv2: Learning Robust Visual Features by Distilling Large-Scale Self-Supervised Models' (CVPR 2023) 4. 'Masked Autoencoders Are Scalable Vision Learners' (CVPR 2022) 5. 'Contrastive Multiview Coding' (NeurIPS 2020)
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论