在机器学习中,我们经常会碰到不光滑的函数,但我们的优化方法通常是基于梯度的,这意味着光滑的模型可能更利于优化(梯度是连续的),所以就有了寻找非光滑函数的光滑近似的需求。
最近的一篇论文《SAU: Smooth activation function using convolution with approximate identities》提出一种比较通用的思路:用狄拉克函数来构造光滑近似,其特点是比较通用,对原函数没有太严格的要求。通用到什么程度呢?理论上有可数个间断点的函数都可以用它来构造光滑近似!作为例子,作者利用它导出了 ReLU 函数的各种常见近似以及取整函数的一个光滑近似。

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢