可解释性｜超越Attention可视化的可解释性

Transformer Interpretability Beyond Attention Visualization
Hila Chefer, Shir Gur, Lior Wolf
2020/12
CODE
自我注意技术在NLP领应用广泛，并在CV的图像分类任务中越来越受欢迎。为了将导致某种分类的图像中的关键点可视化，现有的方法要么依赖于获得的注意力矩阵，要么沿着注意力矩阵进行启发式传播。在这项工作中，作者提出了一种新的计算网络关联的方法。该方法基于深度泰勒分解原理分配局部相关性。涉及注意层和跳跃连接，显示了跨层的总体相关性。在最近的transformer可视化网络以及文本分类问题上对方法进行测试，相对于现有的可解释性方法的有着明显的优势。