Learn from your own latents and not from tokens: A sample-complexity theory

向作者提问

NEW

简介

从扩散模型到大语言模型，生成式模型虽取得了卓越的性能表现，但其训练所需的数据量却比生物学习者所需高出数个数量级。与此相对，一种新兴的替代范式正逐渐兴起：网络被训练用于预测自身对相关视图或被遮蔽区域所形成的**潜在表征**，例如 data2vec 和 JEPA 所采用的方法——这一思想与皮层中基于预测编码（predictive coding）的神经计算理论密切相关。尽管这类方法在实证上展现出强劲效果，但对其背后理论机制的理解仍十分有限。其中两个核心问题尤为关键：（1）潜在表征预测究竟能在多大程度上提升数据利用效率？（2）将此类方法堆叠成多尺度层级结构是否真有增益？我们借助一种可解析的概率上下文无关文法（probabilistic context-free grammar, PCFG）作为理论分析的数据源，该文法能精确刻画自然语言与图像所共有的组合性结构。此类文法通过在深度为 $L$ 的隐变量语法树上递归应用产生式规则，生成由可见符号（token）构成的字符串。针对此类数据，监督学习或基于词元（token-level）的自监督学习均需样本量随 $L$ 呈**指数级增长**，方能准确恢复底层隐式语法树；而我们严格证明：潜在表征预测仅需样本量为**关于 $L$ 的常数级**（至多含对数因子）。我们通过三方面验证了该理论界：（i）一种分层聚类算法；（ii）一个端到端神经网络，其内部由若干“预测—聚类”模块构成，各模块在每一层级均通过梯度下降自主预测自身的潜在表征；（iii）首次对 data2vec 进行样本复杂度分析，结果表明其本质上已隐式实现了分层潜在预测。由此推断，显式地堆叠此类结构（如 H-JEPA 所倡导的方式）在很大程度上是冗余的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决生成式模型数据效率远低于生物学习者的问题，验证‘预测自身潜在表征’（latent prediction）是否能显著提升样本效率，并探究多尺度层级堆叠是否必要——这是一个对自监督学习理论基础的重要新问题。
关键思路

提出并严格证明：在具有深层树状组成结构（深度L）的可解析语法数据上，传统监督学习或token级自监督需指数级（O(2^L)）样本才能恢复隐变量树，而潜变量预测（如data2vec/JEPA范式）仅需与L无关的常数级样本（至多对数因子）；进一步指出显式多层堆叠（如H-JEPA）在理论上冗余，因单层潜预测已隐含层次归纳能力。
其它亮点

理论贡献明确：首次为latent prediction提供紧致的样本复杂度分析；实验三重验证——（i）可解释的层次聚类算法、（ii）端到端神经网络（含predictor-clusterer模块，通过梯度下降自预测各层潜变量）、（iii）首次对data2vec的样本复杂度进行形式化分析，揭示其隐式执行层次潜预测；使用人工构造但具严格组成性与可扩展性的概率上下文无关文法（PCFG）作为基准，控制变量清晰；未提开源代码，但方法具强可复现性；值得深入的方向包括：向真实图像/语言数据迁移该理论框架、探索潜空间几何与泛化误差的关系。
相关研究

JEPA (LeCun, 2022); data2vec (Baevski et al., ICML 2022); SimCLR (Chen et al., PMLR 2020); BYOL (Grill et al., NeurIPS 2020); MAE (He et al., CVPR 2022); Predictive Coding in Cortex (Rao & Ballard, 1999); Hierarchical VAEs (Sønderby et al., ICML 2016)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问