Scalable and Robust Transformer Decoders for Interpretable Image Classification with Foundation Models

2024年03月07日
  • 简介
    可解释的计算机视觉模型可以产生透明的预测,其中图像的特征与训练数据集中的原型进行比较,它们之间的相似性形成分类的基础。然而,这些方法在训练时计算成本高,引入了额外的复杂性,并且可能需要领域知识来适应新的数据集超参数。受到目标检测、分割和大规模自监督基础视觉模型发展的启发,我们介绍了组件特征(ComFe),这是一种新颖的通过设计可解释的图像分类方法,使用变压器解码器头和分层混合建模。仅使用全局图像标签,而没有分割或部件注释,ComFe可以识别一致的图像组件,例如鸟的头部、身体、翅膀和尾巴以及图像背景,并确定哪些特征在进行预测时是有信息量的。我们证明了ComFe在一系列细粒度视觉基准测试中获得了比以前的可解释模型更高的准确性,而不需要为每个数据集单独调整超参数。我们还展示了ComFe在一系列数据集上优于不可解释的线性头,包括ImageNet,并提高了泛化和鲁棒性基准测试的性能。
  • 图表
  • 解决问题
    本文提出了一种可解释的图像分类方法,旨在解决目前解释性模型训练成本高、需要领域知识等问题。
  • 关键思路
    ComFe是一种基于transformer-decoder head和层次混合建模的图像分类方法,通过识别图像中的组件来进行分类,且不需要分割或部分注释。
  • 其它亮点
    ComFe在多个细粒度视觉基准测试中比之前的解释性模型获得更高的准确性,且无需为每个数据集单独调整超参数。此外,ComFe在ImageNet等数据集上优于非可解释性线性头,提高了泛化和鲁棒性。
  • 相关研究
    在最近的研究中,也有一些关于可解释性模型的研究,例如InterpretML、LIME等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论