Log-Normal Multiplicative Dynamics for Stable Low-Precision Training of Large Networks

2025年06月21日
  • 简介
    神经科学的研究表明,生物突触遵循一种对数正态分布,其变化可以通过带有噪声的乘性动力学来解释。即使在由于突触传递不可靠而产生的动态波动条件下,生物网络仍能稳定运行。那么我们提出的问题是:是否可以在人工神经网络中设计类似的乘性训练机制?为了解答这个问题,我们推导出了一种贝叶斯学习规则,该规则假设权重的后验分布服从对数正态分布,从而提出了新的对数正态乘性动力学(LMD)算法。该算法采用乘性更新方式,并且噪声和正则化也是以乘性方式施加。这种方法实现起来与Adam一样简便,仅需额外存储一个向量。我们的实验结果表明,LMD能够在低精度前向运算条件下,对Vision Transformer和GPT-2实现稳定且准确的从头训练。这些结果表明,这种源自生物特性的乘性动力学机制,可能使未来的节能硬件具备稳定且低精度的推理和学习能力。
  • 图表
  • 解决问题
    论文试图解决如何在人工神经网络中模拟生物神经元突触的乘法动态特性,以实现低精度前向操作下的稳定和准确训练。这一问题是相对较新的,特别是在视觉变换器(Vision Transformer)和GPT-2等复杂模型中的应用。
  • 关键思路
    论文提出了一种基于贝叶斯学习规则的Log-Normal Multiplicative Dynamics (LMD)算法,假设权重服从对数正态分布,并引入了乘法更新、噪声和正则化。这一思路借鉴了生物学中突触传递的动态特性,为低精度硬件上的高效训练提供了新方法。
  • 其它亮点
    {LMD算法仅需额外存储一个向量,实现难度与Adam相当。,"实验表明该方法在Vision Transformer和GPT-2上表现良好,支持从零开始的低精度训练。",研究结果表明,生物启发的乘法动态可能有助于未来节能硬件的低精度推理和学习。,值得关注的研究方向包括进一步优化LMD在更大模型上的性能,以及其在实际硬件中的部署效果。}
  • 相关研究
    {"Neuromorphic Computing and Engineering: 探索类脑计算架构的研究。","Multiplicative Neural Networks: 使用乘法操作替代传统加法运算的网络结构。","Bayesian Deep Learning: 结合贝叶斯推断的深度学习方法。","Low-Precision Training and Inference: 关于低精度计算在神经网络中的应用研究。","Biologically Plausible Learning Rules: 模拟生物神经网络特性的学习算法研究。"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论