LLM-assisted Concept Discovery: Automatically Identifying and Explaining Neuron Functions

2024年06月12日
  • 简介
    为深度神经网络(DNN)中的神经元提供基于文本概念的解释对于理解DNN模型的工作原理非常重要。之前的研究根据概念的示例或预定义的概念集将概念与神经元相关联,因此限制了用户期望的可能解释,特别是在发现新概念方面。此外,定义概念集需要用户手动工作,可以通过直接指定或收集示例来完成。为了克服这些问题,我们提出利用多模式大型语言模型进行自动和开放式概念发现。我们表明,我们的方法在没有限制预定义概念的情况下,产生了更忠实于模型行为的新颖可解释概念。为了量化这一点,我们通过生成示例和反例并评估神经元对这组新图像的响应来验证每个概念。总的来说,我们的方法可以发现概念并同时验证它们,提供了一个可靠的自动化工具来解释深度神经网络。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决神经网络中的概念发现问题,以及验证这些概念是否准确。传统方法需要预定义概念或手动收集示例,限制了解释的可能性,而本论文提出了一种使用多模态语言模型进行自动和开放式概念发现的方法。
  • 关键思路
    本论文的关键思路是利用多模态语言模型进行自动和开放式概念发现,从而发现更准确的、更符合模型行为的解释概念。
  • 其它亮点
    本论文的亮点在于提出了一种自动化的方法来发现神经网络中的概念,同时验证这些概念的准确性。实验结果表明,该方法能够发现新的可解释概念,并且这些概念更符合模型的行为。本论文使用了多个数据集进行实验,并开源了代码。值得进一步研究的是如何将该方法应用于更复杂的神经网络中。
  • 相关研究
    在相关研究方面,最近的工作包括使用生成对抗网络进行可解释性研究,以及使用梯度方法来理解神经网络中的概念。相关论文包括:“Towards Explainable Deep Neural Networks by Leveraging the Internal Invertibility”和“Visualizing and Understanding Convolutional Networks”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问