Variational Learning is Effective for Large Deep Networks

2024年02月27日
  • 简介
    我们提供了大量实证证据,反驳了常见观念,即变分学习对于大型神经网络是无效的。我们展示了一种名为Improved Variational Online Newton (IVON)的优化器,它在训练大型网络(如GPT-2和ResNets)时,始终能够与Adam相匹敌甚至更胜一筹。IVON的计算成本几乎与Adam相同,但其预测不确定性更好。我们展示了IVON的几个新用例,其中我们改进了大型语言模型的微调和模型合并,在准确预测泛化误差和忠实估计数据敏感性方面表现出色。我们发现有压倒性的证据支持变分学习的有效性。
  • 图表
  • 解决问题
    论文旨在反驳一般认为变分学习对于大型神经网络无效的观点,并提出了一种名为Improved Variational Online Newton(IVON)的优化器,用于训练大型网络,如GPT-2和ResNets。
  • 关键思路
    IVON优化器的关键思路是利用变分学习,在计算成本几乎相同的情况下,提高预测不确定性,从而在训练大型神经网络时取得与Adam相当或更好的效果。
  • 其它亮点
    论文展示了IVON优化器在多个新用例中的应用,包括改进大型语言模型的微调和模型合并,准确预测泛化误差,以及忠实地估计对数据的敏感性。此外,论文还提供了开源代码和使用的数据集。
  • 相关研究
    最近的相关研究包括《Adam: A Method for Stochastic Optimization》和《On the Variance of the Adaptive Learning Rate and Beyond》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论