Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

简介

本文介绍了JumpReLU SAEs，这是一种稀疏自编码器，可用于识别语言模型（LM）激活中具有因果关系和可解释的线性特征。为了在下游任务中有用，SAEs需要忠实地分解LM激活；但为了可解释性，分解必须是稀疏的，这两个目标存在紧张关系。本文的JumpReLU SAEs在Gemma 2 9B激活上实现了最先进的重构保真度，与其他最近的进展如门控和TopK SAEs相比。我们还展示了这种改进不会牺牲可解释性，通过手动和自动可解释性研究得出。JumpReLU SAEs是对基本（ReLU）SAEs的简单修改，其中我们用不连续的JumpReLU激活函数代替了ReLU，训练和运行效率类似。通过在原则上使用直通估计器（STEs），我们展示了如何有效地训练JumpReLU SAEs，尽管在SAE的前向传递中引入了不连续的JumpReLU函数。同样，我们使用STEs直接训练L0稀疏，而不是在代理如L1上进行训练，避免了收缩等问题。
图表
解决问题

本文旨在解决稀疏自编码器（SAEs）在保证解耦和稀疏性的前提下，如何忠实地分解语言模型（LM）激活的问题。同时，本文还试图验证JumpReLU SAEs在Gemba 2 9B激活上的重构保真度和稀疏性比其他最新进展如Gated和TopK SAEs更好。
关键思路

JumpReLU SAEs是对普通（ReLU）SAEs的简单修改，使用不连续的JumpReLU激活函数代替ReLU激活函数，通过直通估计器（STEs）的使用，可以在前向传递中有效地训练JumpReLU SAEs，从而达到更好的重构保真度和稀疏性。
其它亮点

本文提出的JumpReLU SAEs在Gemba 2 9B激活上的重构保真度和稀疏性比其他最新进展如Gated和TopK SAEs更好，且不会影响可解释性。本文还使用STEs直接训练L0以实现稀疏性，避免了收缩等问题。实验使用了Gemba 2 9B数据集，并开源了代码。
相关研究

最近在这个领域中，还有一些相关的研究，如《Gated Sparse Coding Layers for Unsupervised Learning》和《TopK Training of Gated Autoencoders for High Fidelity Reconstruction and Improved Sparsity》。

Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

评论