Learn from your own latents and not from tokens: A sample-complexity theory

2026年05月26日
  • 简介
    从扩散模型到大语言模型,生成式模型虽取得了卓越的性能表现,但其训练所需的数据量却比生物学习者所需高出数个数量级。与此相对,一种新兴的替代范式正逐渐兴起:网络被训练用于预测自身对相关视图或被遮蔽区域所形成的**潜在表征**,例如 data2vec 和 JEPA 所采用的方法——这一思想与皮层中基于预测编码(predictive coding)的神经计算理论密切相关。尽管这类方法在实证上展现出强劲效果,但对其背后理论机制的理解仍十分有限。其中两个核心问题尤为关键:(1)潜在表征预测究竟能在多大程度上提升数据利用效率?(2)将此类方法堆叠成多尺度层级结构是否真有增益?我们借助一种可解析的概率上下文无关文法(probabilistic context-free grammar, PCFG)作为理论分析的数据源,该文法能精确刻画自然语言与图像所共有的组合性结构。此类文法通过在深度为 $L$ 的隐变量语法树上递归应用产生式规则,生成由可见符号(token)构成的字符串。针对此类数据,监督学习或基于词元(token-level)的自监督学习均需样本量随 $L$ 呈**指数级增长**,方能准确恢复底层隐式语法树;而我们严格证明:潜在表征预测仅需样本量为**关于 $L$ 的常数级**(至多含对数因子)。我们通过三方面验证了该理论界:(i)一种分层聚类算法;(ii)一个端到端神经网络,其内部由若干“预测—聚类”模块构成,各模块在每一层级均通过梯度下降自主预测自身的潜在表征;(iii)首次对 data2vec 进行样本复杂度分析,结果表明其本质上已隐式实现了分层潜在预测。由此推断,显式地堆叠此类结构(如 H-JEPA 所倡导的方式)在很大程度上是冗余的。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决生成式模型数据效率远低于生物学习者的问题,验证‘预测自身潜在表征’(latent prediction)是否能显著提升样本效率,并探究多尺度层级堆叠是否必要——这是一个对自监督学习理论基础的重要新问题。
  • 关键思路
    提出并严格证明:在具有深层树状组成结构(深度L)的可解析语法数据上,传统监督学习或token级自监督需指数级(O(2^L))样本才能恢复隐变量树,而潜变量预测(如data2vec/JEPA范式)仅需与L无关的常数级样本(至多对数因子);进一步指出显式多层堆叠(如H-JEPA)在理论上冗余,因单层潜预测已隐含层次归纳能力。
  • 其它亮点
    理论贡献明确:首次为latent prediction提供紧致的样本复杂度分析;实验三重验证——(i)可解释的层次聚类算法、(ii)端到端神经网络(含predictor-clusterer模块,通过梯度下降自预测各层潜变量)、(iii)首次对data2vec的样本复杂度进行形式化分析,揭示其隐式执行层次潜预测;使用人工构造但具严格组成性与可扩展性的概率上下文无关文法(PCFG)作为基准,控制变量清晰;未提开源代码,但方法具强可复现性;值得深入的方向包括:向真实图像/语言数据迁移该理论框架、探索潜空间几何与泛化误差的关系。
  • 相关研究
    JEPA (LeCun, 2022); data2vec (Baevski et al., ICML 2022); SimCLR (Chen et al., PMLR 2020); BYOL (Grill et al., NeurIPS 2020); MAE (He et al., CVPR 2022); Predictive Coding in Cortex (Rao & Ballard, 1999); Hierarchical VAEs (Sønderby et al., ICML 2016)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问