Thermodynamic Natural Gradient Descent

2024年05月22日
  • 简介
    第二阶段训练方法比梯度下降具有更好的收敛性,但由于计算开销很少在大规模训练中使用。这可以看作是硬件限制(由数字计算机强加)。在这里,我们展示了自然梯度下降(NGD)这种第二阶段方法在使用适当的硬件时,每次迭代的计算复杂度可以与第一阶段方法相似。我们提出了一种新的混合数字模拟算法,用于训练神经网络,在某些参数范围内等效于NGD,但避免了代价高昂的线性系统求解。我们的算法利用了模拟系统在平衡状态下的热力学特性,因此需要一个模拟热力计算机。训练发生在混合数字模拟循环中,在该循环中,梯度和Fisher信息矩阵(或任何其他半正定曲率矩阵)在给定时间间隔内计算,同时模拟动力学发生。我们在分类任务和语言模型微调任务上数值上证明了这种方法优于最先进的数字第一阶段和第二阶段训练方法。
  • 图表
  • 解决问题
    论文旨在解决使用二阶训练方法进行大规模训练时的计算复杂度问题,提出一种基于模拟热力学计算机的混合数字-模拟算法。
  • 关键思路
    论文提出了一种新的混合数字-模拟算法,该算法利用模拟热力学计算机的热力学性质,避免了昂贵的线性系统求解,实现了类似于自然梯度下降的二阶方法的计算复杂度,并在分类和语言模型微调任务上取得了优异的表现。
  • 其它亮点
    论文的混合数字-模拟算法在计算复杂度和训练效果方面都有显著的优势,实验使用了多个数据集并展示了算法的鲁棒性和泛化能力,论文提供了开源代码。
  • 相关研究
    近年来,自然梯度下降等二阶方法在深度学习领域中得到了广泛关注和应用,同时也有许多关于使用模拟热力学计算机进行深度学习的研究,例如《Training Deep Neural Networks with Analog Quantum-inspired Circuits》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论