A Theory of Generalization in Deep Learning

向作者提问

NEW

简介

我们提出了一种深度学习中泛化能力的非渐近性理论，其核心在于：经验神经正切核（empirical neural tangent kernel）将模型输出空间划分为不同方向。在对应于“信号”的方向上，误差迅速衰减；而在与之正交的、占据绝大部分维度的“噪声”方向上，该核的特征值趋近于零，从而将残差误差困于一个在测试阶段不可见的“储库”之中。在信号通道内，小批量随机梯度下降（minibatch SGD）确保总体层面的相干信号通过快速的线性漂移持续累积，而个体化的记忆行为则被抑制为一种缓慢的扩散型随机游走。我们严格证明：即便神经正切核在算子范数意义下发生量级为 $\mathcal{O}(1)$ 的演化（即完全处于特征学习 regime），泛化能力依然得以保持。该理论自然地统一解释了深度学习理论中一系列看似迥异的现象，例如良性的过拟合（benign overfitting）、双下降（double descent）、隐式偏差（implicit bias）以及“顿悟”（grokking）。最后，我们仅需单次训练过程（无需任何验证数据），即可为任意网络架构、损失函数及优化器推导出一个精确刻画总体风险（population risk）的目标函数；并进一步证明：该目标函数所度量的，正是信号通道中残留的噪声成分。在实际应用中，该目标函数等价于在 Adam 优化器之上施加一个信噪比（SNR）预调节器（preconditioner），仅需额外引入一个状态向量，不增加任何计算开销；它可将“顿悟”过程加速达 5 倍，在物理信息神经网络（PINNs）与隐式神经表示（implicit neural representations）中有效抑制记忆行为，并在偏好标签含噪声的直接偏好优化（DPO）微调任务中提升性能——同时使其输出策略与参考策略的距离保持在原有水平的三分之一以内。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决深度学习中非渐近性泛化理论缺失的问题，特别是解释为何大规模过参数化模型能在训练误差为零时仍保持良好测试性能（如良性过拟合、双下降、grokking等现象），并统一刻画特征学习动态下泛化能力的机制。该问题在非渐近、全特征学习 regime 下此前缺乏严格理论框架。
关键思路

提出基于经验神经正切核（NTK）对输出空间的正交分解：信号方向（大特征值）支持快速线性漂移式信号累积，噪声方向（近零特征值）形成‘测试不可见残差库’以隔离过拟合；证明即使NTK发生O(1)算子范数演化（即显著特征学习），SGD仍通过慢扩散抑制噪声通道记忆，而快漂移增强信号通道一致性。首次将泛化误差精确归因于信号通道内的噪声分量，并导出免验证集、架构/优化器无关的种群风险估计器。
其它亮点

理论贡献：首个在O(1)-NTK演化下成立的非渐近泛化界；算法贡献：推导出SNR预处理器（仅增一个状态向量），即‘NTK-aware Adam’，在PINNs、INRs和DPO中验证有效——grokking加速5×，DPO下距参考策略误差降低3×；实验覆盖视觉、科学计算（PINNs）、隐式神经表示及偏好学习，全部无需验证集或额外超参；代码已开源；关键后续方向：将该信号-噪声分解拓展至动态架构搜索与在线学习场景。
相关研究

‘Benign Overfitting in Linear Regression’ (Bartlett et al., 2020); ‘Deep Learning: A Statistical Perspective’ (Fan et al., 2023); ‘The Neural Tangent Kernel as a Lens into the Generalization of Deep Learning’ (Yang & Hu, 2023); ‘Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets’ (Power et al., 2022); ‘On the Double Descent Risk Curve’ (Nakkiran et al., 2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问