Improving Neuron-level Interpretability with White-box Language Models

向作者提问

NEW

简介

在自回归语言模型（如GPT-2）中，可以通过分析神经元的激活模式来解释这些神经元。最近的研究表明，诸如字典学习等后验稀疏编码技术可以增强这种神经元级别的可解释性。我们的研究旨在通过将稀疏编码直接嵌入模型架构中，而不是作为事后处理来应用，从而从根本上提高神经网络的可解释性。在本研究中，我们引入了一种名为“编码率变换器”（CRATE）的白盒变压器架构，该架构明确设计用于捕捉数据分布中的稀疏、低维结构。我们的全面实验展示了在多种评估指标下神经元级别可解释性的显著提升（最高达到103%的相对提升）。详细研究表明，这种增强的可解释性在不同层之间保持稳定，无论模型大小如何，这突显了CRATE在提高神经网络可解释性方面的稳健性能。进一步的分析显示，CRATE的可解释性增强源于其在相关标记上一致且独特地激活的能力。这些发现指出了一个有前景的方向，即创建在神经元级别解释方面表现出色的白盒基础模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图通过在模型架构中嵌入稀疏编码来根本性地提高神经网络的可解释性，而不是将其作为后处理步骤。这是一个新的尝试，旨在从架构层面解决神经网络黑箱问题。
关键思路

论文的关键思路是引入一种名为Coding RAte TransformEr (CRATE)的白盒变压器架构，该架构专门设计用于捕捉数据分布中的稀疏、低维结构。与现有的后处理稀疏编码技术不同，CRATE将稀疏编码直接嵌入到模型架构中，从而在训练过程中实现更好的可解释性。
其它亮点

论文通过多种评估指标展示了CRATE在神经元级可解释性上的显著提升（最高达103%的相对改进）。此外，实验表明这种增强的可解释性在不同层和不同模型大小下保持稳定。CRATE还表现出更强的能力，在相关标记上一致且有区别的激活。这些结果为创建高可解释性的基础模型提供了新的方向。实验设计包括多个基准测试和详细的分析，使用了公开的数据集，并且代码已开源，便于进一步研究。
相关研究

近年来，关于神经网络可解释性的研究非常活跃。例如，'Interpreting Neural Networks Using Differentiable Masking' 和 'Interpretable Deep Learning via Disentangled Representations' 等论文探讨了不同的方法来提高模型的透明度。CRATE的独特之处在于它将稀疏编码直接集成到模型架构中，而不仅仅是作为后处理步骤。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问