Mechanistic?

简介

“机械式可解释性”这个术语的出现伴随着对神经模型（尤其是语言模型）理解的兴趣不断增加。然而，这个术语也导致了相当多的混淆。那么，“机械式”到底意味着什么呢？我们描述了可解释性研究中该术语的四种用法。最狭义的技术定义要求具有因果关系的声明，而更广泛的技术定义允许对模型内部的任何探索。然而，该术语还有一个狭义的文化定义，描述了一种文化运动。为了理解这种语义漂移，我们介绍了NLP可解释性社区的历史以及单独并行的“机械式”可解释性社区的形成。最后，我们讨论了广泛的文化定义——涵盖整个可解释性领域——以及为什么传统的NLP可解释性社区已经开始接受它。我们认为，“机械式”这个多义词是可解释性社区内的一个重要分歧产生的结果。
图表
解决问题

本文旨在澄清“机械式可解释性”这一术语的含义，并探讨其在解释性研究中的不同用法。同时，文章还介绍了NLP可解释性社区的历史以及形成独立的“机械式”可解释性社区的原因。
关键思路

本文描述了“机械式可解释性”这一术语在解释性研究中的四种用法，包括最狭窄的技术定义，更广泛的技术定义，狭义的文化定义以及广义的文化定义。文章还讨论了为什么传统的NLP可解释性社区开始接受广义的文化定义。
其它亮点

本文介绍了NLP可解释性社区的历史，并解释了“机械式可解释性”这一术语的语义漂移。文章还讨论了文化定义的广义含义，并探讨了为什么传统的NLP可解释性社区开始接受这一含义。此外，文章还介绍了文化定义的狭义含义以及解释性研究中的其他亮点。
相关研究

最近在这个领域中，还有一些相关的研究，例如“可解释性技术的未来”（The Future of Explainable Technology）和“可解释性机器学习的新前沿”（New Frontiers in Explainable Machine Learning）。

评论