- 简介最近的研究发现,稀疏自编码器(SAEs)是一种有效的技术,可以通过找到语言模型(LMs)激活的稀疏线性重构来实现对可解释特征的无监督发现。我们引入了门控稀疏自编码器(Gated SAE),它在训练中实现了帕累托改进。在SAEs中,用于鼓励稀疏性的L1惩罚引入了许多不良偏差,例如收缩-系统低估特征激活。门控SAEs的关键洞见是将(a)确定要使用的方向和(b)估计这些方向的大小的功能分开:这使我们只能将L1惩罚应用于前者,从而限制了不良副作用的范围。通过对高达7B参数的LMs进行SAE训练,我们发现,在典型的超参数范围内,门控SAEs解决了收缩问题,同样具有可解释性,并且需要一半的激活特征才能实现相当的重构保真度。
- 图表
- 解决问题Gated Sparse Autoencoders (Gated SAEs)试图解决使用L1 penalty鼓励稀疏性时可能引入的副作用,例如shrinkage(系统性低估特征激活)。
- 关键思路Gated SAEs通过将确定使用哪些方向和估计这些方向的幅度的功能分开,仅在前者上应用L1 penalty,从而解决shrinkage问题。
- 其它亮点Gated SAEs通过实验表明,它们可以解决shrinkage问题、具有类似的可解释性,并且需要的特征数量比传统方法少一半。实验中使用了7B参数的语言模型,并在典型的超参数范围内进行了训练。
- 最近的相关研究包括使用自编码器进行语言模型的特征学习,以及使用其他方法来解决L1 penalty引入的副作用。
沙发等你来抢
去评论
评论
沙发等你来抢