来自MIT等最新《可解释AI: 深度神经网络内部结构解释》综述论文, (1)为现有的内在可解释性方法提供一个全面的参考资源,(2)为持续的、以安全为重点的研究提供指导方向。

论文链接https://arxiv.org/pdf/2207.13243.pdf

我们将可解释性方法定义为可以用人类可以理解的术语描述系统行为的任何过程。这包含了DNN文献中广泛的技术,所以在本文中,我们特别关注对理解内部结构和表示有用的方法。我们称之为内部可解释方法。我们讨论了这些方法的分类,提供了文献综述,讨论了可解释性和深度学习中的其他主题之间的关键联系,并总结了继续工作的方向。我们的中心目标有两方面: (1)为现有的内在可解释性方法提供一个全面的参考资源,(2)为持续的、以安全为重点的研究提供指导方向

 

  • 可解释性技术的一个主要动机是理解模型的潜在问题。因此,可解释性方法将与构建更安全、更值得信赖的人工智能系统高度相关。

     

  • 可解释性技术应通过其产生新颖、有效和可操作见解的能力来评估。这可能是困难的,而且在文献中评估常常做得很差。需要严格的测试和基准来评估解释,应该包括重新发现DNN的已知缺陷。

     

  • 可解释性、模块化、对抗鲁棒性、持续学习、网络压缩和与人类视觉系统的相似性之间有许多丰富的联系。

     

  • 未来工作的引人注目的方向包括使用人类输入的可扩展方法、逆向工程系统、检测潜在知识、基准测试和研究技术之间的交互。

内容中包含的图片若涉及版权问题,请及时与我们联系删除