- 简介在语言模型可解释性领域,电路发现越来越受欢迎。尽管如此,这些电路的真正含义仍然大多未解答。我们引入了一种新方法,通过知识编辑的视角来学习它们作为一个整体的含义。我们使用不同的文本分类数据集从GPT2-XL模型中提取电路,并使用分层关系数据集来探索电路中的知识编辑。我们的发现表明,这些电路包含实体知识,但相对于补充电路,在知识编辑过程中更抵制新知识。此外,我们还研究了电路大小的影响,发现一个理想的“理论电路”,其中包含关键知识,很可能包含模型参数的5%到50%。我们还评估了来自不同数据集的电路之间的重叠,发现相似性较中等。那么,这些电路包括什么?我们发现,多达60%的电路由层归一化模块而不是注意力或MLP模块组成,为关于知识本地化的持续争论增加了证据。总之,我们的研究结果为电路的功能提供了新的见解,并引入了进一步解释性和语言模型安全研究的研究方向。
- 图表
- 解决问题探究语言模型中电路发现的意义及知识编辑方法
- 关键思路通过知识编辑方法来理解电路的意义,发现电路包含实体知识,但相对于补充性电路更难接受新知识。理想的电路应该包含5%到50%的模型参数。60%的电路由层归一化模块组成,而非注意力或多层感知机模块,这为知识本地化的争议提供了证据。
- 其它亮点实验使用了多种文本分类数据集和层级关系数据集,发现电路中包含实体知识,但难以接受新知识。发现理想的电路应该包含5%到50%的模型参数。60%的电路由层归一化模块组成,这为知识本地化的争议提供了证据。
- 相关研究包括《Attention is not Explanation》、《The Lottery Ticket Hypothesis》和《Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors》等。
沙发等你来抢
去评论
评论
沙发等你来抢