- 简介本文研究使用随机梯度 Langevin 动力学(SGLD)解决非凸优化问题。SGLD 是一种自然而又流行的随机梯度下降的变种,每步会加入适当缩放的高斯噪声。据我们所知,展示 SGLD 在损失函数上的全局收敛的唯一策略是展示 SGLD 可以从分配给小函数更大质量的静止分布(Gibbs 测度)中进行采样,然后将这些保证转化为优化结果。我们采用了一种基于 Lyapunov 势和优化的新策略来分析 SGLD 收敛到全局最小值的情况。我们将之前关于 SGLD 的轻微条件转化为基于 Lyapunov 势的几何特性。这种方法适用于具有随机梯度 oracle 的情况,这在机器学习应用中很自然,因为人们希望最小化人口损失,但只能通过小批量训练样本访问随机梯度。本文提供了以下内容:1)在研究 SGLD 进行优化的先前工作中,改进了设置的速率;2)在函数是 Lipschitz 的情况下,对于定义为函数满足 Poincaré 不等式的 Gibbs 测度的 SGLD,提供了第一个有限梯度复杂度保证;3)证明如果连续时间 Langevin 动力学成功进行优化,则在轻微正则性假设下,离散时间 SGLD 也会成功。
- 图表
- 解决问题论文试图通过使用Lyapunov potentials和优化的方法分析SGLD的全局收敛性,解决非凸优化问题。
- 关键思路论文提出了一种新的策略,将先前对SGLD的研究中的温和条件转化为基于Lyapunov potentials的几何属性。这种方法适用于具有随机梯度Oracle的情况,可以用于机器学习应用中的优化问题。
- 其它亮点论文提供了在先前研究SGLD进行优化的设置中改进的速率,还提供了Lipschitz函数和由函数定义的Gibbs measure满足Poincaré不等式时的第一个有限梯度复杂度保证。此外,论文还证明了如果连续时间Langevin Dynamics在优化方面成功,则在温和的正则性假设下,离散时间SGLD也会成功。
- 最近的相关研究包括使用SGLD的其他全局收敛性证明,如SGLD的Ergodicity和Convergence Theorem,以及其他随机梯度方法的全局收敛性证明,如SGD和SVRG。
沙发等你来抢
去评论
评论
沙发等你来抢