- 简介梯度下降及其变种算法是训练机器学习模型的事实标准算法。由于梯度下降对其超参数非常敏感,因此我们需要仔细调整超参数,使用网格搜索,但这需要花费大量时间,特别是当存在多个超参数时。最近,研究了一些无参数方法,可以动态地调整超参数。然而,现有的研究只研究了步长的无参数方法,并未探索其他超参数的无参数方法。例如,梯度裁剪阈值除了步长之外也是一个关键的超参数,用于防止梯度爆炸问题,但是现有的研究都没有研究裁剪梯度下降的无参数方法。在本研究中,我们研究了裁剪梯度下降的无参数方法。具体来说,我们提出了不精确的Polyak步长,它在不需要任何超参数调整的情况下收敛到最优解,并且其收敛速度在L-smooth和$(L_0, L_1)$-smooth假设下是渐近独立于L的,就像裁剪梯度下降与良好调整的超参数的收敛速度一样。我们使用合成函数在数值上验证了我们的收敛结果,并使用LSTM、Nano-GPT和T5证明了我们提出的方法的有效性。
- 图表
- 解决问题研究参数自由的修剪梯度下降法
- 关键思路提出Inexact Polyak Stepsize算法,实现对修剪梯度下降法的参数自由调整
- 其它亮点通过实验验证算法的收敛性,并在LSTM、Nano-GPT和T5等模型中验证了算法的有效性
- 最近的相关研究主要集中在调整步长的参数自由方法,而本文则着重研究了修剪梯度下降法的参数自由方法
沙发等你来抢
去评论
评论
沙发等你来抢