Composing Global Optimizers to Reasoning Tasks via Algebraic Objects in Neural Nets

2024年10月02日
  • 简介
    我们证明了使用二次激活和$L_2$损失函数在阿贝尔群(例如模加法)推理任务中训练的两层神经网络的解空间具有丰富的代数结构。这种丰富的结构使得即使在高度非线性的情况下,可以通过部分解的解决方案来构建全局最优解的解析构造。我们将这个框架称为CoGO(组合全局优化器)。具体而言,我们展示了不同数量的隐藏节点的权重空间配备有半环代数结构,要优化的损失函数由单项式势组成,这些单项式势是环同态,允许通过环加法和乘法将部分解组合成全局解。我们的实验表明,通过梯度下降获得的解约有95%与我们的理论构造完全匹配。尽管构造的全局优化器只需要少量的隐藏节点,但我们对梯度动力学的分析表明,过度参数化在渐近意义下解耦训练动力学是有益的。我们进一步展示了在权重衰减下,训练动力学偏爱更简单的解决方案,因此高阶全局优化器(如完美记忆)是不利的。
  • 图表
  • 解决问题
    论文探讨了在Abelian群(例如模加法)中训练的具有二次激活和L2损失的两层神经网络的解空间的丰富代数结构,以及如何从局部解析构建全局最优解。
  • 关键思路
    论文提出了CoGO框架,该框架利用解空间的半环代数结构和由环同态构成的单项式势函数,通过环加法和乘法将局部解组合成全局最优解。
  • 其它亮点
    实验结果表明,约95%的通过梯度下降得到的解与理论构造完全匹配。尽管全局优化器只需要少量隐藏节点,但梯度动力学的分析表明过度参数化在渐近意义下解耦训练动态并且是有益的。此外,研究发现在权重衰减下,训练动态偏好于更简单的解,因此高阶全局优化器(如完美记忆)是不可取的。
  • 相关研究
    最近的相关研究包括:1.《On the Expressive Power of Deep Learning: A Tensor Analysis》;2.《Neural Networks Fail to Learn Periodic Functions and How to Fix It》;3.《Deep Learning with Topological Signatures》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论