Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations

2024年09月12日
  • 简介
    本文讨论了如何利用VLM(视觉-语言模型)通过prompt-learning实现多标签识别(MLR)。该方法通过学习每个类别的正负prompt,将它们的嵌入与共享的视觉-文本特征空间中的类别存在或不存在关联起来,从而提高MLR的性能。然而,我们假设学习负prompt可能不是最优的,因为用于训练VLM的数据集缺乏明确关注类别不存在的图像-标题对。为了分析正负prompt对MLR的影响,本文引入了PositiveCoOp和NegativeCoOp。其中,只有一个prompt是通过VLM指导学习的,而另一个则由直接在共享特征空间中学习的嵌入向量替代,而不依赖于文本编码器。通过实证分析,我们观察到负prompt会降低MLR的性能,而仅学习正prompt并结合学习的负嵌入(PositiveCoOp)的方法优于双prompt学习方法。此外,我们量化了prompt-learning相对于简单的视觉特征基线的性能提升,观察到当缺失标签的比例较低时,基线表现出与双prompt学习方法(DualCoOp)相当的强大性能,同时需要一半的训练计算和16倍更少的参数。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决多标签识别(MLR)中的部分注释问题,通过利用prompt-learning来学习每个类别的正负prompt,将视觉-文本模型(VLM)应用于这个问题。
  • 关键思路
    本文提出了PositiveCoOp和NegativeCoOp方法,通过在共享特征空间中直接学习嵌入向量,替换一个prompt,观察正负prompt对MLR性能的影响。实验结果表明,学习负prompt会降低MLR性能,而只学习正prompt并结合学习的负嵌入向量(PositiveCoOp)的方法优于双prompt学习方法(DualCoOp)。
  • 其它亮点
    本文的实验结果表明,prompt-learning相对于仅使用视觉特征的基线方法,在标签缺失比例较低时具有较强的性能,同时需要的训练计算量和参数数量都更少。此外,本文提出的方法在COCO和NUS-WIDE数据集上均取得了优于其他方法的性能。
  • 相关研究
    与本文相关的研究包括利用VLM的MLR方法,以及利用prompt-learning的方法。其中,CLIP是一种常用的VLM模型,本文中也使用了该模型。此外,本文还参考了其他一些相关的MLR方法,如基于注意力机制的方法和利用图像语义的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问