Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials

简介

本文研究使用随机梯度 Langevin 动力学（SGLD）解决非凸优化问题。SGLD 是一种自然而又流行的随机梯度下降的变种，每步会加入适当缩放的高斯噪声。据我们所知，展示 SGLD 在损失函数上的全局收敛的唯一策略是展示 SGLD 可以从分配给小函数更大质量的静止分布（Gibbs 测度）中进行采样，然后将这些保证转化为优化结果。我们采用了一种基于 Lyapunov 势和优化的新策略来分析 SGLD 收敛到全局最小值的情况。我们将之前关于 SGLD 的轻微条件转化为基于 Lyapunov 势的几何特性。这种方法适用于具有随机梯度 oracle 的情况，这在机器学习应用中很自然，因为人们希望最小化人口损失，但只能通过小批量训练样本访问随机梯度。本文提供了以下内容：1）在研究 SGLD 进行优化的先前工作中，改进了设置的速率；2）在函数是 Lipschitz 的情况下，对于定义为函数满足 Poincaré 不等式的 Gibbs 测度的 SGLD，提供了第一个有限梯度复杂度保证；3）证明如果连续时间 Langevin 动力学成功进行优化，则在轻微正则性假设下，离散时间 SGLD 也会成功。
图表
解决问题

论文试图通过使用Lyapunov potentials和优化的方法分析SGLD的全局收敛性，解决非凸优化问题。
关键思路

论文提出了一种新的策略，将先前对SGLD的研究中的温和条件转化为基于Lyapunov potentials的几何属性。这种方法适用于具有随机梯度Oracle的情况，可以用于机器学习应用中的优化问题。
其它亮点

论文提供了在先前研究SGLD进行优化的设置中改进的速率，还提供了Lipschitz函数和由函数定义的Gibbs measure满足Poincaré不等式时的第一个有限梯度复杂度保证。此外，论文还证明了如果连续时间Langevin Dynamics在优化方面成功，则在温和的正则性假设下，离散时间SGLD也会成功。
相关研究

最近的相关研究包括使用SGLD的其他全局收敛性证明，如SGLD的Ergodicity和Convergence Theorem，以及其他随机梯度方法的全局收敛性证明，如SGD和SVRG。

Langevin Dynamics: A Unified Perspective on Optimization via Lyapunov Potentials

评论