- 简介稀疏自编码器(SAEs)是揭示大型语言模型(LLMs)激活中人类可解释特征的有力工具。尽管一些人期望SAEs能够发现模型所使用的真正底层特征,但我们的研究表明,即使在相同模型和数据上训练、仅初始化权重时使用的随机种子不同的SAEs,也会识别出不同的特征集。例如,在一个具有131K潜在单元的SAE上,该自编码器是在Llama 3 8B的前馈网络上训练的,不同随机种子之间只有30%的特征是共享的。我们在三个不同的LLM的多个层、两个数据集以及几种SAE架构中都观察到了这种现象。虽然使用L1稀疏损失训练的ReLU SAEs在不同种子间表现出更大的稳定性,但使用最先进的TopK激活函数的SAEs即使在控制稀疏性水平的情况下也表现出更强的种子依赖性。我们的结果表明,SAE揭示的特征集应被视为激活空间的一种实用分解,而不是模型“真正使用”的特征的详尽且普遍的列表。
- 图表
- 解决问题该论文试图解决的问题是验证稀疏自编码器(SAEs)是否能够稳定地发现大型语言模型(LLMs)中真正使用的特征。研究假设,即不同初始化条件下训练的SAEs会识别出相同的特征集,但研究结果显示这一假设并不成立。
- 关键思路关键思路在于通过控制变量实验,特别是改变随机种子来初始化SAE的权重,从而观察在相同模型和数据下,不同的SAE实例能否找到一致的特征集。相比现有研究,这篇论文强调了SAE结果的不稳定性,并提出应将SAE发现的特征视为对激活空间的一种实用分解,而非模型使用的绝对特征列表。
- 其它亮点其他值得关注的地方包括:1) 实验设计涵盖了多个LLM层、两个不同数据集以及多种SAE架构;2) 发现ReLU SAEs使用L1稀疏性损失时比使用TopK激活函数的SAEs更稳定;3) 研究指出即使控制了稀疏度水平,TopK激活函数仍表现出更高的种子依赖性;4) 没有提到开源代码,但提供了详细的实验设置和结果,为后续研究提供了方向。
- 最近在这个领域中,相关研究还包括:1) 探索如何通过神经网络解释性技术更好地理解LLMs;2) 提出新的方法来提高自编码器的稳定性和解释力;3) 分析不同激活函数对模型性能的影响。一些相关研究的论文标题如《Understanding Neural Networks through Feature Visualization》、《Improving the Stability of Autoencoders for Feature Extraction》、《Impact of Activation Functions on Model Performance in Deep Learning》。
沙发等你来抢
去评论
评论
沙发等你来抢