Manifold Integrated Gradients: Riemannian Geometry for Feature Attribution

简介

本文探讨了集成梯度（IG）这种黑盒深度学习模型的流行特征归因方法的可靠性问题。我们特别关注了IG面临的两个主要挑战：为视觉模型生成噪声特征可视化和易受到对抗性归因攻击。我们的方法涉及一种基于路径的特征归因的改进，将归因路径更紧密地对齐到数据流形的内在几何结构上。我们的实验利用了应用于几个真实世界图像数据集的深度生成模型。它们证明了沿着测地线的IG符合黎曼数据流形的曲面几何，生成更具感知直观性的解释，并因此大大增强了对有针对性的归因攻击的鲁棒性。
图表
解决问题

论文旨在解决Integrated Gradients (IG)方法在黑盒深度学习模型中的可靠性问题，尤其是在视觉模型中生成嘈杂的特征可视化和容易受到针对性归因攻击的问题。
关键思路

通过适应基于路径的特征归因方法，将归因路径与数据流形的内在几何形态更加接近，从而解决IG方法的问题。在多个真实图像数据集上，利用深度生成模型进行实验，证明了沿着测地线的IG方法符合Riemannian数据流形的曲面几何，生成更加直观的解释，并且大大提高了针对性归因攻击的鲁棒性。
其它亮点

实验使用了多个真实图像数据集，证明了沿着测地线的IG方法符合Riemannian数据流形的曲面几何，生成更加直观的解释，并且大大提高了针对性归因攻击的鲁棒性。论文提出的方法可以应用于黑盒深度学习模型的特征归因中。
相关研究

最近的相关研究包括DeepLIFT、SHAP、LIME等方法。

Manifold Integrated Gradients: Riemannian Geometry for Feature Attribution

评论