Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery

2024年07月19日
  • 简介
    最近提出了概念瓶颈模型(CBMs)来解决深度神经网络的“黑盒”问题,首先将图像映射到人类可理解的概念空间,然后线性组合概念进行分类。这些模型通常需要首先提出一组与任务相关的概念,然后调整特征提取器的表示以映射到这些概念。然而,即使使用像CLIP这样功能强大的基础特征提取器,也无法保证指定的概念是可检测的。在本研究中,我们利用最近在机制可解释性方面的进展,提出了一种新的CBM方法——称为“发现-命名CBM(DN-CBM)”,它颠覆了典型范式:不是基于下游分类任务预先选择概念,而是使用稀疏自编码器首先发现模型学习到的概念,然后命名并训练线性探针进行分类。我们的概念提取策略很高效,因为它对下游任务不可知,并使用模型已知的概念。我们在多个数据集和CLIP架构上进行了全面评估,并展示了我们的方法产生了语义上有意义的概念,为它们分配了适当的易于解释的名称,并产生了性能良好且可解释的CBMs。代码可在https://github.com/neuroexplicit-saar/discover-then-name获得。
  • 图表
  • 解决问题
    本论文旨在解决深度神经网络的黑盒问题,提出了一种新的概念瓶颈模型(CBM)方法,使用稀疏自编码器来发现模型已经学习到的概念并进行分类。
  • 关键思路
    本论文提出的CBM方法与传统方法不同,不需要预先选择与分类任务相关的概念,而是使用自编码器来发现模型已经学习到的概念,并为其命名和训练线性探测器进行分类。
  • 其它亮点
    论文使用多个数据集和CLIP架构进行了全面评估,证明了该方法可以产生语义上有意义的概念,并为这些概念分配适当的名称,易于解释。此外,论文提供了开源代码。
  • 相关研究
    在相关研究中,有一些关于解释性AI的研究,例如使用可解释的神经网络架构或将解释性方法与深度学习相结合的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论