- 简介现代神经网络的一项关键能力在于,能够同时学习潜在的规律性(underlying rules)并记忆具体的事实或例外情形(specific facts or exceptions)。然而,目前对这种双重能力的理论理解仍十分有限。本文提出了“规律与事实”(Rules-and-Facts, RAF)模型——一个极简且可解析求解的理论框架,通过融合统计物理学习理论中两条经典研究路径,为该现象提供了精确刻画:其一是用于刻画泛化能力的“教师–学生”(teacher-student)框架;其二是用于分析记忆容量的Gardner型容量理论。在RAF模型中,训练标签的一部分(比例为 $1 - \varepsilon$)由一个具有结构的教师规则生成,而另一部分(比例为 $\varepsilon$)则为无结构的事实,其标签完全随机。我们系统刻画了学习器何时能够同时实现两项任务:一方面准确恢复底层规律,从而具备对新样本的泛化能力;另一方面完整记忆所有无结构的样本。我们的结果定量揭示了过参数化(overparameterization)如何支撑这两项目标的协同实现:充足的额外容量是实现记忆的必要条件;而正则化强度,以及核函数或非线性激活函数的选择,则共同调控着总容量在“规律学习”与“事实记忆”之间的分配。RAF模型为理解现代神经网络如何在挖掘数据内在结构的同时,有效存储稀有或不可压缩的信息,提供了坚实的理论基础。
-
- 图表
- 解决问题论文试图解决现代神经网络如何同时实现结构化规则学习(泛化能力)与非结构化事实记忆(过拟合能力)这一看似矛盾的双重目标,验证‘过参数化神经网络可协同分配容量于泛化与记忆’这一假设;这是一个在理论机器学习中长期存在但缺乏统一分析框架的新颖基础问题。
- 关键思路提出Rules-and-Facts(RAF)模型——一个最小可解理论框架,将教师-学生范式(刻画规则学习/泛化)与Gardner容量分析(刻画记忆极限)首次严格融合;通过引入混合标签分布((1−ε)比例由结构化教师规则生成,ε比例为随机标签‘事实’),定量刻画泛化-记忆权衡,并证明过参数化提供总容量,而正则化/核选择/非线性决定容量在二者间的动态分配。
- 其它亮点首次在严格统计物理框架下给出泛化与记忆共存的相变边界;无需实验仿真,全部结论解析可得(如临界ε_c、过参数化阈值、L2正则化对规则恢复的促进作用);工作纯理论,不依赖具体数据集或代码,但为实证研究(如大模型的‘memorization vs. generalization’现象)提供可检验预测;后续值得深入的方向包括:扩展至深度网络架构、引入噪声鲁棒性、连接神经正切核(NTK)动态演化、以及与语言模型中‘factual recall’机制的实证对标。
- The Neural Tangent Kernel in the Infinite-Width Limit (Jacot et al., NeurIPS 2018); Statistical Mechanics of Generalization (Watkin et al., Rev. Mod. Phys. 1993); The Capacity of Feedforward Neural Networks (Gardner, J. Phys. A 1988); Double Descent in Linear Models (Belkin et al., NeurIPS 2019); On the Origin of Implicit Regularization in Overparameterized Neural Networks (Lyu & Li, ICLR 2020)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流