How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks

简介

存在两种用于自监督学习数据表示的竞争范式。联合嵌入预测架构（JEPA）是一类架构，其中语义相似的输入被编码为彼此预测的表示。最近成功的一种属于JEPA框架的方法是自蒸馏，其中在线编码器被训练以预测目标编码器的输出，有时使用轻量级预测网络。这与掩码自编码器（MAE）范式形成对比，其中编码器和解码器被训练以在数据空间中重建输入的缺失部分，而不是其潜在表示。使用JEPA方法而不是MAE的常见动机是，JEPA目标优先考虑抽象特征而非细粒度像素信息（可能是不可预测和无信息的）。在这项工作中，我们试图通过分析深度线性模型的训练动态来理解这一经验观察的机制。我们发现了一个令人惊讶的机制：在一个简化的线性设置中，两种方法学习类似的表示，但JEPA偏向于学习高影响特征，即具有高回归系数的特征。我们的结果指出了在潜在空间中进行预测的明显隐含偏差，这可能有助于解释其在实践中的成功。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

比较自监督学习中的两种范式：Joint Embedding Predictive Architecture (JEPA)和Masked AutoEncoder (MAE)，并试图理解JEPA的成功机制。
关键思路

在一个简化的线性模型中，发现JEPA会偏向于学习高影响力特征，即具有高回归系数的特征，这揭示了在潜在空间中进行预测的独特隐含偏差。
其它亮点

论文探讨了自监督学习中两种范式的比较，并通过分析线性模型的训练动态揭示了JEPA的隐含偏差，实验使用了简化的线性模型，结果可能需要进一步验证。
相关研究

最近的相关研究包括：self-distillation、contrastive predictive coding等。

How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks

提问交流

提问交流