- 简介我们介绍了发现和应用稀疏特征电路的方法。这些电路是人可解释特征的因果相关子网络,用于解释语言模型行为。在先前的工作中,识别出的电路包括多义和难以解释的单元,如注意力头或神经元,使它们不适用于许多下游应用。相比之下,稀疏特征电路可以详细了解意外的机制。因为它们基于细粒度单元,稀疏特征电路对下游任务很有用:我们介绍了SHIFT,通过删除人类判断为任务无关的特征,提高分类器的泛化能力。最后,我们展示了一个完全无监督且可扩展的可解释性流水线,通过发现自动发现的模型行为的数千个稀疏特征电路。
- 图表
- 解决问题论文试图解决的问题是如何发现和应用稀疏特征电路来解释语言模型的行为。这是否是一个新问题?
- 关键思路论文的关键思路是使用稀疏特征电路来解释语言模型的行为,这些电路由人类可解释的特征子网络组成,可用于下游任务。相比于之前使用的注意力头或神经元等难以解释的单元,稀疏特征电路更容易理解,并且能够提高分类器的泛化能力。
- 其它亮点论文提出了SHIFT方法,通过消除人类判断为任务无关的特征来提高分类器的泛化能力。同时,论文还展示了一个完全无监督和可扩展的可解释性流程,用于发现自动发现的模型行为的数千个稀疏特征电路。论文使用了多个数据集,并提供了开源代码。
- 在该领域的相关研究包括使用注意力机制来解释语言模型行为的研究(如《Attention is All You Need》),以及使用可解释的特征电路来解释图像分类器行为的研究(如《Interpretable Convolutional Neural Networks》)。
沙发等你来抢
去评论
评论
沙发等你来抢