- 简介多标签分类是在各种实际应用中使用的重要任务。多标签零样本学习是一种方法,用于将图像分类为多个未见过的类别,而对于一般的零样本情况,测试集可能包括观察到的类别。CLIP-Decoder是一种基于最先进的ML-Decoder注意力机制的新方法。我们在CLIP-Decoder中引入了多模态表示学习,利用文本编码器提取文本特征,利用图像编码器提取图像特征。此外,我们通过将图像和单词嵌入在同一维度上进行对齐,并使用组合损失比较它们各自的表示,从而最小化语义不匹配。这种策略优于其他方法,并使用CLIP-Decoder在零样本多标签分类任务上实现了最新的结果。与现有的零样本学习多标签分类任务相比,我们的方法在性能上实现了3.9%的绝对增长。此外,在广义零样本学习多标签分类任务中,我们的方法显示出近2.3%的令人印象深刻的增长。
-
- 图表
- 解决问题本论文旨在解决多标签零样本学习问题,即在没有训练数据的情况下将图像分类到多个未见过的类别中。
- 关键思路本文提出了一种基于CLIP-Decoder的新方法,利用文本编码器提取文本特征,利用图像编码器提取图像特征,通过对齐图像和词向量的嵌入来最小化语义不匹配,并使用组合损失对它们的表示进行比较,从而取得了优于其他方法的结果。
- 其它亮点本文的方法在零样本多标签分类任务中表现出色,相比现有方法,性能提升了3.9%;在广义零样本多标签分类任务中,性能提升了近2.3%。实验使用了多个数据集,并且开放了代码。
- 与本文相关的研究包括:Zero-shot Learning、Multi-label Classification、CLIP等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流