- 简介我们提出了通用稀疏自编码器(USAEs),这是一个揭示和对齐多个预训练深度神经网络中可解释概念的框架。与现有的基于概念的可解释性方法不同,这些方法通常只关注单个模型,而USAEs可以联合学习一个通用的概念空间,能够同时重建和解释多个模型的内部激活。我们的核心思想是训练一个单一的、过完备的稀疏自编码器(SAE),它可以接收来自任何模型的激活,并将其解码以近似其他待研究模型的激活。通过优化共享目标,所学的字典捕捉到了跨不同任务、架构和数据集的共同变化因素——即概念。我们展示了USAEs能够在视觉模型中发现语义连贯且重要的通用概念,从低级特征(例如颜色和纹理)到高级结构(例如部件和物体)。总体而言,USAEs为可解释的跨模型分析提供了一种强大的新方法,并提供了诸如协调激活最大化等新颖应用,为多模型AI系统的更深入洞察开辟了新的途径。
- 图表
- 解决问题该论文试图解决的问题是如何在多个预训练的深度神经网络之间发现和对齐可解释的概念。传统的方法通常只专注于单个模型,而这篇论文提出了一种新的框架,可以在多个模型中同时解构和解释内部激活,这是一个相对新颖的研究方向。
- 关键思路关键思路是通过训练一个单一的、过度完整的稀疏自编码器(SAE),它可以处理来自任何模型的激活,并将它们解码以近似其他考虑中的模型的激活。这种方法通过优化共享目标,学习到跨越不同任务、架构和数据集的共同变化因素——即概念。相比现有研究,USAEs的独特之处在于它能够联合学习一个通用的概念空间,从而实现跨模型的解释性。
- 其它亮点论文展示了USAEs能够发现从低级特征(如颜色和纹理)到高级结构(如部分和对象)的语义连贯且重要的通用概念。实验设计包括了多种视觉模型,并展示了这些模型在不同层次上的共同特征。此外,作者提出了协调激活最大化等新应用,为多模型AI系统的深入理解开辟了新途径。虽然文中未明确提及,但开源代码和详细的数据集信息对于后续研究至关重要。
- 最近在这个领域内的相关研究包括:1. 'Interpretability of Deep Neural Networks via Layer-wise Relevance Propagation',2. 'Network Dissection: Quantifying Interpretability of Deep Visual Representations',3. 'Concept Whitening for Interpretable Image Recognition'。这些研究主要集中在提高单个模型的可解释性上,而USAEs则进一步推动了这一领域的边界,探索了跨模型的理解和对齐。


提问交流