Stochastic weight matrix dynamics during learning and Dyson Brownian motion

2024年07月23日
  • 简介
    我们展示了学习算法中的权重矩阵更新可以用Dyson Brownian运动的框架来描述,从而继承了随机矩阵理论的许多特性。我们将随机性水平与学习率和小批量大小的比率联系起来,提供了先前猜测的缩放关系更加稳健的证据。我们讨论了结果库仑气体分布中的通用和非通用特征,并在教师-学生模型和(近似)可解的高斯限制玻尔兹曼机的情况下明确识别了Wigner猜想和Wigner半圆。
  • 图表
  • 解决问题
    该论文旨在探讨学习算法中权重矩阵的更新问题,并将其描述为戴森布朗运动的框架,以此验证先前的猜想。
  • 关键思路
    通过将权重矩阵的更新描述为戴森布朗运动的框架,该论文提出了一种新的解决方案,并将其与随机矩阵理论联系起来。
  • 其它亮点
    论文探讨了在学习算法中权重矩阵更新的随机性与学习率和小批量大小之间的比率之间的关系,并识别了Coulomb气体分布中的普遍和非普遍特征。论文还使用了教师-学生模型和高斯受限玻尔兹曼机等实例进行了验证。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Random Matrix Theory and Neural Networks》;2.《A Theory of Learning from Different Domains》;3.《Understanding deep learning requires rethinking generalization》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论