CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification

2024年05月26日
  • 简介
    最近在视觉语言基础模型方面的进展,如CLIP,已经在零样本分类方面取得了显著进展。然而,像CLIP这样的模型的广泛参数化需要资源密集型的微调过程。为此,TIP-Adapter和SuS-X引入了无需训练的方法,旨在增强下游任务的效果。虽然这些方法采用支持集来保持知识缓存和测试集之间的数据分布一致性,但在测试集上的泛化能力往往不足,特别是当面对具有实质性分布变化的测试数据时。在这项工作中,我们提出了CapS-Adapter,一种创新的方法,它采用基于标题的支持集,有效地利用图像和标题特征,超越了现有的无需训练场景下的技术。CapS-Adapter熟练地构建支持集,紧密地反映目标分布,利用从多模态大型模型中提取的实例级分布特征。通过利用CLIP的单模态和跨模态优势,CapS-Adapter通过使用多模态支持集增强了预测准确性。我们的方法在19个基准数据集上实现了杰出的零样本分类结果,比之前的领先方法提高了2.19\%的准确率。我们的贡献通过在多个基准数据集上进行广泛验证来证实,展示了卓越的性能和稳健的泛化能力。我们的代码已经公开在https://github.com/WLuLi/CapS-Adapter上。
  • 图表
  • 解决问题
    本论文旨在解决使用零样本分类时,传统模型需要进行资源密集型的微调,而且在测试集上的泛化能力较弱的问题。
  • 关键思路
    本论文提出了一种使用基于标题的支持集的方法,有效地利用图像和标题特征来超越现有的无需微调的技术。CapS-Adapter通过从多模型中提取的实例级分布特征来巧妙地构建支持集,从而实现了与目标分布密切匹配的支持集。通过利用CLIP的单模态和跨模态优势,CapS-Adapter通过使用多模态支持集来提高预测准确性。
  • 其它亮点
    本论文的亮点包括使用基于标题的支持集的方法,以及使用实例级分布特征构建支持集。此外,CapS-Adapter在19个基准数据集上取得了卓越的零样本分类结果,比之前的领先方法提高了2.19%的准确率。论文提供了开源代码。
  • 相关研究
    最近的相关研究包括TIP-Adapter和SuS-X等使用支持集的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论