- 简介目前的可解释性技术能够很好地推广到未来的模型吗?一个相关的案例研究是Mamba,这是一种最近的循环体系结构,其规模可与Transformer相媲美。我们将pre-Mamba技术应用于Mamba,并部分逆向工程了负责间接对象识别(IOI)任务的电路。我们的技术提供了证据,表明:1)第39层是关键瓶颈,2)第39层中的卷积将名称向前移动一个位置,3)名称实体在第39层的SSM中线性存储。最后,我们将自动电路发现工具(位置边缘归因修补)应用于Mamba IOI电路的识别。我们的贡献提供了初步证据,表明基于电路的机械可解释性工具对Mamba架构效果良好。
- 图表
- 解决问题论文试图通过对Mamba模型的解释性技术研究,验证其泛化性能,特别是对于Indirect Object Identification(IOI)任务的解释能力。
- 关键思路论文采用传统的解释性技术和自动电路发现工具,对Mamba模型进行解释和分析,提供了证据表明模型的关键瓶颈在第39层,第39层的卷积将名称向前移动一个位置,名称实体线性存储在第39层的SSM中。
- 其它亮点论文的亮点包括采用了自动电路发现工具,提供了对Mamba模型的解释和分析,实验结果表明电路机制解释性工具对于Mamba模型是有效的。
- 最近在这个领域中,还有一些相关的研究,如《Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors》、《Learning to Explain: An Information-Theoretic Perspective on Model Interpretation》等。
沙发等你来抢
去评论
评论
沙发等你来抢