- 简介最近的研究发现,稀疏自编码器(SAEs)是一种有效的技术,用于无监督地发现语言模型(LMs)激活中可解释特征的方法,通过找到LM激活的稀疏线性重构。我们引入了门控稀疏自编码器(Gated SAE),它在训练中实现了帕累托改进。在SAEs中,用于鼓励稀疏性的L1惩罚引入了许多不良偏差,例如收缩——对特征激活的系统低估。门控SAEs的关键见解是将(a)确定使用哪些方向和(b)估计这些方向的大小的功能分开:这使我们只能将L1惩罚应用于前者,限制了不良副作用的范围。通过对最多7B参数的LMs进行SAE训练,我们发现,在典型的超参数范围内,门控SAEs解决了收缩问题,同样具有可解释性,并且需要一半的发射特征才能实现可比较的重构保真度。
-
- 解决问题Gated Sparse Autoencoders论文试图解决的问题是在语言模型中发现可解释特征的问题。
- 关键思路Gated Sparse Autoencoder的关键思路是将稀疏自编码器的L1惩罚分为两部分,只对确定方向的部分进行惩罚,以解决收缩的问题。
- 其它亮点论文通过在多个语言模型上进行实验,发现Gated Sparse Autoencoder可以解决收缩问题,且具有相似的可解释性,同时需要的特征数量减少了一半。论文提供了开源代码。
- 最近的相关研究包括使用自编码器进行特征提取的方法,如Variational Autoencoder和Denoising Autoencoder。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流