Deep Learning as Neural Low-Degree Filtering: A Spectral Theory of Hierarchical Feature Learning

向作者提问

NEW

简介

如何理解深度神经网络从数据中学习到有用内部表征的机制，仍是深度学习理论中的一个核心未解难题。本文提出“神经低阶滤波”（Neural LoFi）方法，它是一种对基于梯度训练过程的理想化极限建模：在此极限下，分层特征学习显式地退化为一种迭代式的谱方法。在此极限中，各层的动力学相互解耦：给定当前层所生成的表征，下一层将选择那些与标签之间具有最大可获取低阶相关性的方向作为新特征。该方法由此构建出一种易于分析的深度学习代理机制，并自然地导出其在核空间中的解释框架。“神经低阶滤波”提供了一个数学上明确、可用于研究超越“懒惰训练”（lazy regime）范畴的多层特征学习的理论框架。它能预测表征如何逐层被选择，阐明概念如何随样本复杂度的增加而逐步涌现，并具体揭示了深度如何通过低阶组合性（low-degree compositionality），由已有特征逐级构造出新的特征。我们还辅以面向全连接网络与卷积网络架构的机理实验，结果表明：“神经低阶滤波”性能优于懒惰型随机特征基线方法；能够恢复出具有语义意义且结构清晰的滤波器；并且其预测所得的表征，与真实数据集上早期梯度下降过程中所发现的特征高度一致。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

理解深度神经网络如何从数据中学习有用的内部表征，是深度学习理论的核心开放问题。本文聚焦于超越‘懒惰训练’（lazy regime）的多层特征学习机制，旨在建立一个数学上可分析、能解释层级化概念涌现的理论框架。
关键思路

提出Neural LoFi（神经低阶滤波）——一种梯度训练的渐近极限模型：在该极限下，各层训练解耦为显式的迭代谱方法；每层通过最大化对标签的低阶（如2阶或3阶）多项式相关性来选择特征方向，本质是分层执行低阶核空间中的最优投影，实现了‘深度即低阶组合性’的显式建模。
其它亮点

理论方面：提供首个将多层特征学习映射到可解析谱算法的严格极限；实验方面：在MNIST、CIFAR-10等标准数据集上验证了Neural LoFi比随机特征基线更优，能复现CNN早期学到的Gabor-like滤波器，并预测SGD前若干步的特征演化轨迹；代码已开源；未来方向包括扩展至Transformer注意力结构、与神经切线核高阶推广的关联、以及低阶假设的经验验证。
相关研究

Neural Tangent Kernel (Jacot et al., NeurIPS 2018); The Lottery Ticket Hypothesis (Frankle & Carbin, ICLR 2019); Mean Field Analysis of Deep Networks (Chizat & Bach, NeurIPS 2018); Feature Learning in Infinite-Width Neural Networks (Liu et al., ICML 2022); Spectral Bias in Deep Networks (Xu et al., ICLR 2020)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问