Improving Dictionary Learning with Gated Sparse Autoencoders

简介

最近的研究发现，稀疏自编码器（SAEs）是一种有效的技术，用于无监督地发现语言模型（LMs）激活中可解释特征的方法，通过找到LM激活的稀疏线性重构。我们引入了门控稀疏自编码器（Gated SAE），它在训练中实现了帕累托改进。在SAEs中，用于鼓励稀疏性的L1惩罚引入了许多不良偏差，例如收缩——对特征激活的系统低估。门控SAEs的关键见解是将（a）确定使用哪些方向和（b）估计这些方向的大小的功能分开：这使我们只能将L1惩罚应用于前者，限制了不良副作用的范围。通过对最多7B参数的LMs进行SAE训练，我们发现，在典型的超参数范围内，门控SAEs解决了收缩问题，同样具有可解释性，并且需要一半的发射特征才能实现可比较的重构保真度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

Gated Sparse Autoencoders论文试图解决的问题是在语言模型中发现可解释特征的问题。
关键思路

Gated Sparse Autoencoder的关键思路是将稀疏自编码器的L1惩罚分为两部分，只对确定方向的部分进行惩罚，以解决收缩的问题。
其它亮点

论文通过在多个语言模型上进行实验，发现Gated Sparse Autoencoder可以解决收缩问题，且具有相似的可解释性，同时需要的特征数量减少了一半。论文提供了开源代码。
相关研究

最近的相关研究包括使用自编码器进行特征提取的方法，如Variational Autoencoder和Denoising Autoencoder。

Improving Dictionary Learning with Gated Sparse Autoencoders

提问交流

提问交流