Sparse Autoencoders Trained on the Same Data Learn Different Features

简介

稀疏自编码器（SAEs）是揭示大型语言模型（LLMs）激活中人类可解释特征的有力工具。尽管一些人期望SAEs能够发现模型所使用的真正底层特征，但我们的研究表明，即使在相同模型和数据上训练、仅初始化权重时使用的随机种子不同的SAEs，也会识别出不同的特征集。例如，在一个具有131K潜在单元的SAE上，该自编码器是在Llama 3 8B的前馈网络上训练的，不同随机种子之间只有30%的特征是共享的。我们在三个不同的LLM的多个层、两个数据集以及几种SAE架构中都观察到了这种现象。虽然使用L1稀疏损失训练的ReLU SAEs在不同种子间表现出更大的稳定性，但使用最先进的TopK激活函数的SAEs即使在控制稀疏性水平的情况下也表现出更强的种子依赖性。我们的结果表明，SAE揭示的特征集应被视为激活空间的一种实用分解，而不是模型“真正使用”的特征的详尽且普遍的列表。
图表
解决问题

该论文试图解决的问题是验证稀疏自编码器（SAEs）是否能够稳定地发现大型语言模型（LLMs）中真正使用的特征。研究假设，即不同初始化条件下训练的SAEs会识别出相同的特征集，但研究结果显示这一假设并不成立。
关键思路

关键思路在于通过控制变量实验，特别是改变随机种子来初始化SAE的权重，从而观察在相同模型和数据下，不同的SAE实例能否找到一致的特征集。相比现有研究，这篇论文强调了SAE结果的不稳定性，并提出应将SAE发现的特征视为对激活空间的一种实用分解，而非模型使用的绝对特征列表。
其它亮点

其他值得关注的地方包括：1) 实验设计涵盖了多个LLM层、两个不同数据集以及多种SAE架构；2) 发现ReLU SAEs使用L1稀疏性损失时比使用TopK激活函数的SAEs更稳定；3) 研究指出即使控制了稀疏度水平，TopK激活函数仍表现出更高的种子依赖性；4) 没有提到开源代码，但提供了详细的实验设置和结果，为后续研究提供了方向。
相关研究

最近在这个领域中，相关研究还包括：1) 探索如何通过神经网络解释性技术更好地理解LLMs；2) 提出新的方法来提高自编码器的稳定性和解释力；3) 分析不同激活函数对模型性能的影响。一些相关研究的论文标题如《Understanding Neural Networks through Feature Visualization》、《Improving the Stability of Autoencoders for Feature Extraction》、《Impact of Activation Functions on Model Performance in Deep Learning》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论