Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

2024年07月19日
  • 简介
    本文介绍了JumpReLU SAEs,这是一种稀疏自编码器,可用于识别语言模型(LM)激活中具有因果关系和可解释的线性特征。为了在下游任务中有用,SAEs需要忠实地分解LM激活;但为了可解释性,分解必须是稀疏的,这两个目标存在紧张关系。本文的JumpReLU SAEs在Gemma 2 9B激活上实现了最先进的重构保真度,与其他最近的进展如门控和TopK SAEs相比。我们还展示了这种改进不会牺牲可解释性,通过手动和自动可解释性研究得出。JumpReLU SAEs是对基本(ReLU)SAEs的简单修改,其中我们用不连续的JumpReLU激活函数代替了ReLU,训练和运行效率类似。通过在原则上使用直通估计器(STEs),我们展示了如何有效地训练JumpReLU SAEs,尽管在SAE的前向传递中引入了不连续的JumpReLU函数。同样,我们使用STEs直接训练L0稀疏,而不是在代理如L1上进行训练,避免了收缩等问题。
  • 图表
  • 解决问题
    本文旨在解决稀疏自编码器(SAEs)在保证解耦和稀疏性的前提下,如何忠实地分解语言模型(LM)激活的问题。同时,本文还试图验证JumpReLU SAEs在Gemba 2 9B激活上的重构保真度和稀疏性比其他最新进展如Gated和TopK SAEs更好。
  • 关键思路
    JumpReLU SAEs是对普通(ReLU)SAEs的简单修改,使用不连续的JumpReLU激活函数代替ReLU激活函数,通过直通估计器(STEs)的使用,可以在前向传递中有效地训练JumpReLU SAEs,从而达到更好的重构保真度和稀疏性。
  • 其它亮点
    本文提出的JumpReLU SAEs在Gemba 2 9B激活上的重构保真度和稀疏性比其他最新进展如Gated和TopK SAEs更好,且不会影响可解释性。本文还使用STEs直接训练L0以实现稀疏性,避免了收缩等问题。实验使用了Gemba 2 9B数据集,并开源了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Gated Sparse Coding Layers for Unsupervised Learning》和《TopK Training of Gated Autoencoders for High Fidelity Reconstruction and Improved Sparsity》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论