Investigating the Indirect Object Identification circuit in Mamba

简介

目前的可解释性技术能够很好地推广到未来的模型吗？一个相关的案例研究是Mamba，这是一种最近的循环体系结构，其规模可与Transformer相媲美。我们将pre-Mamba技术应用于Mamba，并部分逆向工程了负责间接对象识别（IOI）任务的电路。我们的技术提供了证据，表明：1）第39层是关键瓶颈，2）第39层中的卷积将名称向前移动一个位置，3）名称实体在第39层的SSM中线性存储。最后，我们将自动电路发现工具（位置边缘归因修补）应用于Mamba IOI电路的识别。我们的贡献提供了初步证据，表明基于电路的机械可解释性工具对Mamba架构效果良好。
图表
解决问题

论文试图通过对Mamba模型的解释性技术研究，验证其泛化性能，特别是对于Indirect Object Identification（IOI）任务的解释能力。
关键思路

论文采用传统的解释性技术和自动电路发现工具，对Mamba模型进行解释和分析，提供了证据表明模型的关键瓶颈在第39层，第39层的卷积将名称向前移动一个位置，名称实体线性存储在第39层的SSM中。
其它亮点

论文的亮点包括采用了自动电路发现工具，提供了对Mamba模型的解释和分析，实验结果表明电路机制解释性工具对于Mamba模型是有效的。
相关研究

最近在这个领域中，还有一些相关的研究，如《Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors》、《Learning to Explain: An Information-Theoretic Perspective on Model Interpretation》等。

Investigating the Indirect Object Identification circuit in Mamba

评论