SETOL: A Semi-Empirical Theory of (Deep) Learning

2025年07月23日
  • 简介
    我们提出了一种关于学习的半经验理论(SETOL),用以解释当前最先进的神经网络(SOTA NNs)表现出的卓越性能。我们对重尾自正则化现象理论(HTSR)中基本量——重尾幂律层质量度量 alpha 和 alpha-hat 的起源提供了形式化的解释。在之前的研究中,这些度量已被证明可以预测预训练 SOTA 神经网络模型测试准确率的变化趋势,而且这一预测过程无需访问训练或测试数据。 我们的 SETOL 借鉴了统计力学的技术,以及来自随机矩阵理论和量子化学的先进方法。该理论推导出了一些理想学习所需的新数学前提条件,其中包括一个新的度量指标 ERG,它等价于执行一步 Wilson 精确重整化群变换。我们在一个简单的三层多层感知机(MLP)上验证了 SETOL 的假设和预测,结果与关键理论假设高度吻合。 对于当前最先进的神经网络模型,我们展示了如何通过简单计算各层权重矩阵的经验谱密度(ESD),并将其代入 SETOL 公式,来估计训练后神经网络每一层的质量。值得注意的是,我们评估了 HTSR 中的 alpha 指标与 SETOL 中的 ERG 层质量度量的表现,发现无论是在我们构建的 MLP 还是在 SOTA 神经网络上,这两个指标都展现出高度的一致性。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解释当前最先进的神经网络(SOTA NNs)为何具有卓越性能,并试图形式化地推导出Heavy-Tailed Self-Regularization(HTSR)理论中的核心度量指标alpha和alpha-hat的来源。这是一个重要但尚未被充分理解的问题,尤其是在不依赖训练或测试数据的情况下预测模型性能。
  • 关键思路
    论文提出了一种基于统计力学、随机矩阵理论和量子化学的半经验学习理论(SETOL),从理论上解释了HTSR中层质量度量的起源。关键创新在于引入了一个新的度量ERG,等价于Wilson精确重整化群(RG)的一步操作,用于评估神经网络各层的学习质量。
  • 其它亮点
    1. 提出了一个新的理论框架SETOL,能够从物理和数学角度解释神经网络的学习过程。 2. 通过一个简单的三层多层感知机(MLP)验证了理论假设,展示了良好的实验一致性。 3. 展示了如何通过计算层权重矩阵的经验谱密度(ESD)来评估SOTA模型各层的质量。 4. 发现SETOL中的ERG与HTSR中的alpha高度一致,验证了新理论的有效性。 5. 该工作为理解深度学习模型的泛化能力提供了新的数学工具和理论基础。
  • 相关研究
    1. 「Heavy-Tailed Universality in Deep Neural Network Architecture Design」 2. 「Implicit Self-Regularization in Deep Neural Networks: Evidence from Random Matrix Theory」 3. 「Understanding Deep Learning via Analyzing Large-Scale Training Dynamics」 4. 「Renormalization Group and Deep Learning: A Novel Theoretical Link」 5. 「The Role of Heavy-Tailed Dynamics in the Success of Modern Neural Networks」
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问