- 简介零样本学习(ZSL)通过进行视觉-语义交互来从已知类别向未知类别传递语义知识,支持语义信息(如属性)。然而,现有的ZSL方法仅使用预训练的网络骨干(即CNN或ViT)提取视觉特征,缺乏语义信息的指导,无法学习匹配的视觉-语义对应关系以表示与语义相关的视觉特征,导致不良的视觉-语义交互。为解决这个问题,我们提出了一种渐进式语义引导的视觉Transformer用于零样本学习(称为ZSLViT)。ZSLViT主要考虑整个网络中的两个属性:i)通过语义增强显式地发现语义相关的视觉表示,ii)丢弃语义无关的视觉信息。具体来说,我们首先引入了语义嵌入式标记学习,通过语义增强来改善视觉-语义对应关系,并通过语义引导的标记注意力显式地发现语义相关的视觉标记。然后,我们融合低语义-视觉对应的视觉标记,以丢弃语义无关的视觉信息以进行视觉增强。这两个操作被整合到各种编码器中,以逐步学习语义相关的视觉表示,以实现ZSL中准确的视觉-语义交互。广泛的实验表明,我们的ZSLViT在三个流行的基准数据集(即CUB,SUN和AWA2)上实现了显着的性能提升。
- 图表
- 解决问题本论文旨在解决零样本学习中视觉语义交互不足的问题,提出了一种渐进式语义引导的视觉Transformer(ZSLViT)方法。
- 关键思路ZSLViT通过引入语义嵌入令牌学习和语义引导的令牌注意力来显式地发现语义相关的视觉表示,并融合低语义-视觉对应的视觉令牌以丢弃语义不相关的视觉信息,从而逐步学习语义相关的视觉表示,以实现准确的视觉-语义交互。
- 其它亮点论文在三个流行的基准数据集上进行了广泛的实验,证明了ZSLViT在零样本学习中的显著性能提升。论文还提供了开源代码。
- 近期在这个领域的相关研究包括:'Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly','Generalized Zero-Shot Learning via Synthesized Examples','Semantic-Aware Knowledge Distillation for Zero-Shot Learning'等。
沙发等你来抢
去评论
评论
沙发等你来抢