上海交大张拳石团队 | 综述: 基于博弈交互理论的神经网络可解释性研究

Machine Intelligence Research

上海交通大学张拳石副教授团队介绍了一种基于博弈交互理论的系统，该系统既与深度神经网络(DNN)中编码知识的解释有关，也有关DNN的表征能力的解读。在这个系统中，作者定义了两个博弈论交互指数，分别是多阶交互和多元变量交互。更重要的是，作者团队利用这些交互指数从以下四个方面解释了DNN中编码的特征表征：1) 量化DNN编码的知识概念；2) 探索DNN如何编码视觉概念，并提取了DNN中编码的原型概念；3)学习沙普利值的最优基线值，并提供了一个统一的视角来比较十四种不同的归因方法；4)从理论上解释了DNN的表征瓶颈。此外，作者还证明了DNN中编码的交互与表征能力(例如，泛化能力、对抗可迁移性和对抗鲁棒性)之间的关系。通过这种方式，博弈交互理论成功地将"DNN中编码的知识概念的解释"与"DNN表征能力的解释"统一起来。

图片来自Springer

全文下载：

Interpretability of Neural Networks Based on Game-theoretic Interactions

Huilin Zhou, Jie Ren, Huiqi Deng, Xu Cheng, Jinpeng Zhang & Quanshi Zhang

https://link.springer.com/article/10.1007/s11633-023-1419-7

https://www.mi-research.net/article/doi/10.1007/s11633-023-1419-7

全文导读

近年来，深度神经网络(DNN)在各个领域都取得了显著的成功。然而，DNN的黑箱特性使人们难以理解其内部行为。本质上讲，可解释性领域通常有两个方向。第一个是解释DNN学习的特征表征所对应的语义概念。第二个是从数学角度分析DNN的表征能力。尽管这两个方向上先前已经有很多研究，但都是基于不同的理论基础展开的，且没有统一的理论将它们联系起来。

具体来说，在解释DNN编码概念的研究中，之前的工作通常聚焦于三个方面。1) 网络特征可视化是解释DNN最直接的方式。Dosovitskiy等人从中间层特征重新构建图像输入，以解释特征所表达的信息。2) 其他研究大都通过量化输入变量的归因、重要性、显著性等等来解释DNN的输出。3) 此外，具有可解释特征的DNN学习是提高网络可解释性的另一种典型方法。胶囊网络使用胶囊结构来编码可解释性表征，模拟研究对象的位置、姿态和其他信息。InfoGAN和β-VAE直接用相对可解释的中间层特征训练出生成网络。然而，这些在语义层面解释DNN的研究只是对DNN模型的特征进行了可视化，或者量化了输入变量对DNN输出的重要性，但这些研究并未直接解释DNN的表征能力，这在深度学习中是一个更为关键的问题。

另一方面，在从数学角度分析DNN表征能力的研究中，先前的大多数工作虽然定义了各种各样的指标来评估DNN的性能(例如，对抗鲁棒性和泛化能力)。但通常使用单一指标来分析DNN整个复杂的系统。例如，Weng等人定义了CLEVER指标来评估DNN的对抗鲁棒性。Fort等人定义了刚性指标，Novak等人定义了敏感性指标来评估DNN的泛化能力。然而，由于结构复杂且参数庞大，DNN包含了许多潜在的因果因素，可决定其泛化能力(或对抗鲁棒性)。相较之下，先前研究中的运用的单一指标便不足以解释所有这些可能影响DNN泛化能力(或对抗鲁棒性)的潜在因素。

因此，在本文中，作者回顾了几篇近期的研究，这些研究建立了一个新的理论体系，将编码于DNN中的概念解释和从数学角度分析DNN的表征能力两个研究方向进行关联。具体来说，本文首先将博弈论中的交互作为理论基础。研究了多元变量交互，定义了多阶交互，并证明了博弈论中这类交互的不同性质。多个输入单元之间的每个特定交互(例如，句子中几个单词之间的交互或图像中不同区域之间的交互)都可以被视为编码于DNN中的特定概念。通过这种方式，作者可以用交互来量化被DNN记忆的概念。本文证明了DNN可以被解释为一个混合了无数概念的模型。例如，输入一张猫的图像，DNN可能激活各种概念，如眼睛、鼻子、耳朵、嘴巴等。所有这些概念都有助于将这张图片判定为一只猫(见图1)。通过这种方式，他们从概念表征的角度解释了DNN的表征能力。例如，他们可以通过从DNN中剥离鲁棒概念和非鲁棒概念来解释DNN的对抗鲁棒性。更具体地说，他们用博弈交互理论从三个视角解释了DNN的概念表征和性能(见图2)。

图1 DNN可以被解释为许多概念的混合模型。例如，输入一张猫的图像，DNN可能同时编码胡须概念、眼睛概念、耳朵概念。所有这些概念都有助于将这张图片判定为猫。

首先，基于多元变量交互和多阶交互，本文进一步证明并修复了归因方法中的理论缺陷。在计算沙普利值时，他们使用博弈交互理论来定义和学习沙普利值的最优基线值。此外，他们从沙普利·泰勒交互的角度重新阐述了之前的十四种归因方法。基于此，每种方法估算出的归因可以解释为各种交互引起的效果。这个统一的系统能够使人们公平地比较不同的归因方法，并发现不同归因方法的理论缺陷。

其次，本文证明博弈交互理论可以用于解释DNN的特征表征。1) 他们可以使用博弈交互理论以分层的方式量化DNN编码的知识点(概念)。例如，作者将DNN中的因果因素呈现为分层交互树。并使用博弈交互理论来解释自然语言处理(NLP)模型中不同输入词编码之间的交互。2) 博弈交互理论可以用于解释DNN在概念表征方面的能力。例如，他们证明DNN在编码特征表征时存在局限性(或瓶颈)，也就是说，DNN通常倾向于编码非常简单的交互和非常复杂的交互，但对于学习中等复杂度的交互却很困难。3) 他们还可以使用博弈交互理论来解释深度神经网络在某些视觉概念上的信号处理行为。例如，他们明确了DNN在编码不同视觉概念时表现出的独特的信号处理行为。具体而言，作者阐述了编码文本概念和编码形状概念之间的差别。并且使用多阶交互探索了DNN编码的原型概念。

第三，除了解释DNN中编码的概念表征外，他们还使用博弈交互理论从概念表征的角度解释DNN的表征能力。具体来说，他们发现DNN构建概念的数量和可靠性直接决定了DNN的性能(例如，对抗鲁棒性和泛化能力)。与传统指标相比，概念构建的多样性全面且精确地解释了DNN性能强大的多种原因。在对抗鲁棒性方面，本文证明高阶交互在对抗扰动的敏感性上远高于低阶交互。而对抗训练提高了高阶交互的鲁棒性，从而提高了DNN的鲁棒性。作者从博弈交互理论的角度提出了一个统一的理论体系，总结了四种对抗鲁棒性方法中共享的基本机制。同时，他们还证明了对抗可迁移性与DNN编码的交互之间的相关性，并将五种提高可迁移性的攻击方法解释为交互的减少。在泛化能力方面，作者探讨了正则化(dropout)操作对DNN编码交互的影响，验证了DNN的泛化能力与其交互的关系，并提出了一种新的训练方法来替换正则化操作，以精确缓解DNN过拟合问题。

图2 深度神经网络中交互与特征表征之间的关系概览

特别地，本文作者相信博弈交互理论有助于他们定义和量化DNN编码的知识点(或概念)。他们认为从概念的角度分析DNN的表征能力是可解释的AI中一个有前景的方向。实际上，博弈交互理论帮助作者解决了深度学习中三个关键挑战，即验证解释的可靠性、澄清网络推理的具体原因以及提取不同方法的共同机制。1)基于博弈交互理论的统一理论系统验证了解释的可靠性。因为通常没有用于解释DNN的基准真值，如果不澄清DNN中编码的概念，很难证明解释是否可靠。2)从DNN中提取的大量概念可以解释DNN性能的多样和混合的原因。例如，DNN可以对抗扰动鲁棒是因为DNN编码了大量鲁棒概念。通过DNN中各种内部交互概念，作者可以精确分析DNN的对抗鲁棒性和泛化能力。3)基于博弈交互理论，作者们将各种方法共享的共同机制总结为一个单一且统一的理论体系。例如，近年来，人们已经提出了许多基于不同启发式方法提升对抗可迁移性的方法，但它们的本质也许是相同的。基于这样一个统一的理论体系，作者进一步检验现有方法的潜在缺陷，并改进这些方法以进一步提高DNN的性能。

· 本文作者 ·

全文下载：

Interpretability of Neural Networks Based on Game-theoretic Interactions

Huilin Zhou, Jie Ren, Huiqi Deng, Xu Cheng, Jinpeng Zhang & Quanshi Zhang

https://link.springer.com/article/10.1007/s11633-023-1419-7

https://www.mi-research.net/article/doi/10.1007/s11633-023-1419-7

BibTex:

@Article {MIR-2022-06-192,

author={Huilin Zhou, Jie Ren, Huiqi Deng, Xu Cheng, Jinpeng Zhang, Quanshi Zhang },

journal={Machine Intelligence Research},

title={Interpretability of Neural Networks Based on Game-theoretic Interactions},

year={2024},

volume={21},

issue={4},

pages={718-739},

doi={10.1007/s11633-023-1419-7}}

特别感谢本文通讯作者、上海交通大学张拳石副教授对以上内容的审阅和修改！

纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://www.wjx.cn‍/vm/eIyI‍AAI.aspx#

∨

关于Machine Intelligence Research

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划"，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等20余家国际数据库收录，入选图像图形领域期刊分级目录-T2级知名期刊。2022年首个CiteScore分值在计算机科学、工程、数学三大领域的八个子方向排名均跻身Q1区，最佳排名挺进Top 4%，2023年CiteScore分值继续跻身Q1区。2024年获得首个影响因子(IF) 6.4，位列人工智能及自动化&控制系统两个领域JCR Q1区。

▼

往期目录

▼

2024年第4期 | 特约专题: 多模态表征学习

2024年第3期 | 分布式深度强化学习，知识图谱，推荐系统，3D视觉，联邦学习...

2024年第2期 | 大语言模型、零信任架构、常识知识推理、肿瘤自动检测和定位...

2024年第1期 | 特约专题: AI for Art

2023年第6期 | 影像组学、机器学习、图像盲去噪、深度估计...

2023年第5期 | 生成式人工智能系统、智能网联汽车、毫秒级人脸检测器、个性化联邦学习框架... (机器智能研究MIR)

2023年第4期 | 大规模多模态预训练模型、机器翻译、联邦学习......

2023年第3期 | 人机对抗智能、边缘智能、掩码图像重建、强化学习...

2023年第2期 · 特约专题 | 大规模预训练: 数据、模型和微调