Investigating the Indirect Object Identification circuit in Mamba

2024年07月19日
  • 简介
    目前的可解释性技术能够很好地推广到未来的模型吗?一个相关的案例研究是Mamba,这是一种最近的循环体系结构,其规模可与Transformer相媲美。我们将pre-Mamba技术应用于Mamba,并部分逆向工程了负责间接对象识别(IOI)任务的电路。我们的技术提供了证据,表明:1)第39层是关键瓶颈,2)第39层中的卷积将名称向前移动一个位置,3)名称实体在第39层的SSM中线性存储。最后,我们将自动电路发现工具(位置边缘归因修补)应用于Mamba IOI电路的识别。我们的贡献提供了初步证据,表明基于电路的机械可解释性工具对Mamba架构效果良好。
  • 图表
  • 解决问题
    论文试图通过对Mamba模型的解释性技术研究,验证其泛化性能,特别是对于Indirect Object Identification(IOI)任务的解释能力。
  • 关键思路
    论文采用传统的解释性技术和自动电路发现工具,对Mamba模型进行解释和分析,提供了证据表明模型的关键瓶颈在第39层,第39层的卷积将名称向前移动一个位置,名称实体线性存储在第39层的SSM中。
  • 其它亮点
    论文的亮点包括采用了自动电路发现工具,提供了对Mamba模型的解释和分析,实验结果表明电路机制解释性工具对于Mamba模型是有效的。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors》、《Learning to Explain: An Information-Theoretic Perspective on Model Interpretation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论