Optimizers Qualitatively Alter Solutions And We Should Leverage This

向作者提问

NEW

简介

由于深度神经网络（DNNs）的非线性特性，当使用仅依赖局部信息的优化器（如SGD）时，无法保证收敛到损失函数唯一的全局最小值。事实上，在该领域发展的早期，这曾是人们质疑DNNs可行性的主要原因之一。过去几十年深度学习的发展表明这种怀疑并不恰当，并且大量实证证据显示，遵循标准训练协议的足够大的DNN能够展现出良好的优化动态行为，并最终收敛到性能优异的解。这一成功使研究社区倾向于将凸优化作为理解学习过程的心理模型，导致在改进优化器时的关注重点放在训练效率方面，比如所需的迭代次数、计算量（FLOPs）或实际运行时间。我们认为，尽管这种视角带来了极大的成果，但还有一个专属于DNN的独特视角却未受到足够重视：优化器不仅影响收敛速度，还会影响所学解的性质。换句话说，优化器会引入归纳偏置，并改变给定模型类别的实际表达能力。此外，我们相信优化器可以成为在学习过程中编码设计目标的一种有效方式。因此，我们主张社区应致力于理解现有方法所带有的偏置，并且应以明确诱导解的特定性质为目标来构建新的优化器，而不仅仅依据其收敛速度来评判优化器的优劣。我们希望我们的观点能够激发相关研究，增进我们对学习过程如何影响最终收敛解类型的理解，并促使人们更广泛地认识到：优化器的设计是塑造模型结果的重要手段，它与架构和数据共同发挥作用，是一个不可或缺的关键杠杆。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

这篇论文旨在探讨深度神经网络（DNNs）优化过程中，优化器不仅影响收敛速度，还会影响学习到的模型解决方案的定性属性。作者试图验证一个假设：优化器会引入归纳偏置并改变模型的有效表达能力，因此在设计优化器时应考虑其对最终模型特性的影响，而不仅仅关注收敛效率。
关键思路

论文的核心思想是将优化器视为一种能够编码先验偏好（inductive bias）的工具，它能直接影响模型学习到的解的性质。与以往将优化过程类比为凸优化、仅关注训练效率的研究视角不同，本文强调优化器在决定模型行为方面的关键作用，并呼吁研究者们设计具有特定目标的优化器以引导学习结果的特性。
其它亮点

1. 挑战了传统将优化器仅视为加速训练工具的观点，提出了优化器对模型最终性能有根本性影响的新视角。 2. 通过大量实验证明了大型DNN在标准训练协议下通常能找到表现良好的解，但不同的优化策略会导致显著不同的模型特性。 3. 建议未来的研究应更系统地理解现有优化方法的隐式偏差，并主动设计新的优化器来满足特定的学习目标。 4. 实验设计涵盖了多种现代DNN结构和常见训练策略，强调了优化路径与模型泛化之间的关系。 5. 虽未提及具体代码开源情况，但指出了该方向值得进一步探索，包括理论分析与实际应用两个层面。
相关研究

1. Understanding deep learning requires rethinking generalization (Zhang et al., 2017) 2. Implicit Regularization in Deep Learning (Arora et al., 2019) 3. The Implicit Bias of Gradient Descent on Separable Data (Soudry et al., 2018) 4. On the importance of single directions for generalization (Morcos et al., 2018) 5. Gradient descent aligns the layers of a shallow neural network (Ji & Telgarsky, 2019)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问