CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation

简介

多标签分类是在各种实际应用中使用的重要任务。多标签零样本学习是一种方法，用于将图像分类为多个未见过的类别，而对于一般的零样本情况，测试集可能包括观察到的类别。CLIP-Decoder是一种基于最先进的ML-Decoder注意力机制的新方法。我们在CLIP-Decoder中引入了多模态表示学习，利用文本编码器提取文本特征，利用图像编码器提取图像特征。此外，我们通过将图像和单词嵌入在同一维度上进行对齐，并使用组合损失比较它们各自的表示，从而最小化语义不匹配。这种策略优于其他方法，并使用CLIP-Decoder在零样本多标签分类任务上实现了最新的结果。与现有的零样本学习多标签分类任务相比，我们的方法在性能上实现了3.9%的绝对增长。此外，在广义零样本学习多标签分类任务中，我们的方法显示出近2.3%的令人印象深刻的增长。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决多标签零样本学习问题，即在没有训练数据的情况下将图像分类到多个未见过的类别中。
关键思路

本文提出了一种基于CLIP-Decoder的新方法，利用文本编码器提取文本特征，利用图像编码器提取图像特征，通过对齐图像和词向量的嵌入来最小化语义不匹配，并使用组合损失对它们的表示进行比较，从而取得了优于其他方法的结果。
其它亮点

本文的方法在零样本多标签分类任务中表现出色，相比现有方法，性能提升了3.9%；在广义零样本多标签分类任务中，性能提升了近2.3%。实验使用了多个数据集，并且开放了代码。
相关研究

与本文相关的研究包括：Zero-shot Learning、Multi-label Classification、CLIP等。

CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation

提问交流

提问交流