深度学习模型经常遇到较弱的泛化能力等问题。由于损失函数景观(loss landscape)一般是复杂的且非凸,该特性使模型常常收敛到尖锐最小点(Sharp Minima)。一般认为最小值点附近越平滑,模型泛化能力越强。 

Sharpness-Aware Minimization(SAM)方法是一种可以提升模型泛化能力的算法,可以同时最小化损失函数和损失函数尖锐值。SAM 需要两次优化,第一次用于最大化尖锐值,即当在权重添加扰动后最大化损失差异。当模型到达尖锐区域时,权重扰动后对应的梯度能帮助模型跳出尖锐最小点。两次优化简单描述为:第一次获得权重扰动值,第二次更新模型权重。 

本文关注的问题是是否需要所有参数的扰动?关注到在大部分的深度学习模型中,只有 5% 的参数是尖锐的且优化过程中剧烈提升。 

本文提出一种基于稀疏扰动的 SAM 改进算法,Sparse SAM(SSAM)。本文方法需要获得一个二值化掩码决定哪一个参数需要扰动。本文提出两种获取二值化掩码的算法,即基于费雪信息(Fisher Information)的方法(SSAM-F)和基于动态稀疏训练的方法(SSAM-D)。

 

图片

论文链接:https://openreview.net/pdf?id=88_wNI6ZBDZ
代码链接:https://github.com/Mi-Peng/Sparse-Sharpness-Aware-Minimization

内容中包含的图片若涉及版权问题,请及时与我们联系删除