- 简介稀疏自编码器(SAEs)是一种无监督方法,用于学习神经网络的潜在表示的稀疏分解,以便生成看似可解释的特征。尽管最近对其潜力感到兴奋,但在工业以外的研究应用受到训练全面套件的高成本限制。在这项工作中,我们介绍了Gemma Scope,这是一个开放的JumpReLU SAEs套件,它在Gemma 2 2B和9B的所有层和子层以及Gemma 2 27B基础模型的选择层上进行了训练。我们主要在Gemma 2预训练模型上训练SAEs,但另外还发布了在指令调整的Gemma 2 9B上训练的SAEs以进行比较。我们评估了每个SAE的质量,并发布了这些结果。我们希望通过发布这些SAE权重,可以帮助社区更轻松地进行更具雄心的安全性和可解释性研究。权重和教程可以在https://huggingface.co/google/gemma-scope找到,交互式演示可以在https://www.neuronpedia.org/gemma-scope找到。
- 图表
- 解决问题本论文旨在解决Sparse autoencoders (SAEs)训练成本高的问题,通过发布Gemmma Scope套件,提供已训练好的JumpReLU SAEs,以便更多研究人员可以在安全和可解释性方面开展更广泛的研究。
- 关键思路论文的关键思路是通过训练已有的预训练模型来构建一个开放的SAE套件,以便更多的研究人员可以使用这些模型进行安全和可解释性方面的研究。
- 其它亮点论文通过评估Gemmma Scope套件中每个SAE的质量,并公布了这些结果。同时,该套件的权重和教程也已经公布。此外,论文还提到了一个交互式演示链接和使用的数据集。
- 最近在这个领域中,还有一些相关的研究,例如:《Deep Autoencoder-Based Representation Learning for Heart Sound Classification》、《Sparse Autoencoder for Unsupervised Nuclei Detection and Representation in Histopathology Images》等。
沙发等你来抢
去评论
评论
沙发等你来抢