机器学习是一种从数据中提取预测模型,从而能够将预测泛化到未观察数据的技术。根据已知数据集选择良好模型的过程需要进行优化。具体地说,优化过程在约束集中生成一个变量来最小化目标。这个过程包含了包括神经网络训练在内的许多机器学习管道,这将是我们在本文中进行理论分析的主要试验场。在各种优化算法中,梯度方法因其高维可扩展性和反向传播的自然局限性而成为深度学习中的主导算法。然而,尽管基于梯度的算法很受欢迎,但我们从理论的角度对机器学习环境中的这种算法的理解似乎还远远不够。一方面,在现有的理论框架内,大多数上下界是封闭的,理论问题似乎得到了解决。另一方面,理论分析很难产生比实践者发现的经验更快的算法。本文回顾了梯度法的理论分析,指出了理论与实践的差异。然后,我们解释了为什么会发生不匹配,并通过发展由经验观察驱动的理论分析,提出了一些初始解决方案。

论文链接:https://dspace.mit.edu/bitstream/handle/1721.1/143318/Zhang-jzhzhang-PhD-EECS-2022.pdf?sequence=1&isAllowed=y