- 简介我们提供了大量实证证据,反驳了常见观念,即变分学习对于大型神经网络是无效的。我们展示了一种名为Improved Variational Online Newton (IVON)的优化器,它在训练大型网络(如GPT-2和ResNets)时,始终能够与Adam相匹敌甚至更胜一筹。IVON的计算成本几乎与Adam相同,但其预测不确定性更好。我们展示了IVON的几个新用例,其中我们改进了大型语言模型的微调和模型合并,在准确预测泛化误差和忠实估计数据敏感性方面表现出色。我们发现有压倒性的证据支持变分学习的有效性。
- 图表
- 解决问题论文旨在反驳一般认为变分学习对于大型神经网络无效的观点,并提出了一种名为Improved Variational Online Newton(IVON)的优化器,用于训练大型网络,如GPT-2和ResNets。
- 关键思路IVON优化器的关键思路是利用变分学习,在计算成本几乎相同的情况下,提高预测不确定性,从而在训练大型神经网络时取得与Adam相当或更好的效果。
- 其它亮点论文展示了IVON优化器在多个新用例中的应用,包括改进大型语言模型的微调和模型合并,准确预测泛化误差,以及忠实地估计对数据的敏感性。此外,论文还提供了开源代码和使用的数据集。
- 最近的相关研究包括《Adam: A Method for Stochastic Optimization》和《On the Variance of the Adaptive Learning Rate and Beyond》。
沙发等你来抢
去评论
评论
沙发等你来抢