Rethinking Prompting Strategies for Multi-Label Recognition with Partial Annotations

向作者提问

NEW

简介

本文讨论了如何利用VLM（视觉-语言模型）通过prompt-learning实现多标签识别（MLR）。该方法通过学习每个类别的正负prompt，将它们的嵌入与共享的视觉-文本特征空间中的类别存在或不存在关联起来，从而提高MLR的性能。然而，我们假设学习负prompt可能不是最优的，因为用于训练VLM的数据集缺乏明确关注类别不存在的图像-标题对。为了分析正负prompt对MLR的影响，本文引入了PositiveCoOp和NegativeCoOp。其中，只有一个prompt是通过VLM指导学习的，而另一个则由直接在共享特征空间中学习的嵌入向量替代，而不依赖于文本编码器。通过实证分析，我们观察到负prompt会降低MLR的性能，而仅学习正prompt并结合学习的负嵌入（PositiveCoOp）的方法优于双prompt学习方法。此外，我们量化了prompt-learning相对于简单的视觉特征基线的性能提升，观察到当缺失标签的比例较低时，基线表现出与双prompt学习方法（DualCoOp）相当的强大性能，同时需要一半的训练计算和16倍更少的参数。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决多标签识别（MLR）中的部分注释问题，通过利用prompt-learning来学习每个类别的正负prompt，将视觉-文本模型（VLM）应用于这个问题。
关键思路

本文提出了PositiveCoOp和NegativeCoOp方法，通过在共享特征空间中直接学习嵌入向量，替换一个prompt，观察正负prompt对MLR性能的影响。实验结果表明，学习负prompt会降低MLR性能，而只学习正prompt并结合学习的负嵌入向量（PositiveCoOp）的方法优于双prompt学习方法（DualCoOp）。
其它亮点

本文的实验结果表明，prompt-learning相对于仅使用视觉特征的基线方法，在标签缺失比例较低时具有较强的性能，同时需要的训练计算量和参数数量都更少。此外，本文提出的方法在COCO和NUS-WIDE数据集上均取得了优于其他方法的性能。
相关研究

与本文相关的研究包括利用VLM的MLR方法，以及利用prompt-learning的方法。其中，CLIP是一种常用的VLM模型，本文中也使用了该模型。此外，本文还参考了其他一些相关的MLR方法，如基于注意力机制的方法和利用图像语义的方法。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问