- 简介零样本学习(ZSL)旨在探索语义-视觉交互,以发现从已知类别传递到分类未知类别的综合知识。最近,提示工程在ZSL中出现,表现出令人印象深刻的潜力,因为它使得各种视觉概念可以零样本地传递到下游任务中。然而,这些方法仍然没有很好地推广到广泛的未知领域。一个关键原因是,学习提示的固定适应于已知领域,使其倾向于过分强调训练期间观察到的主要视觉特征。在这项工作中,我们提出了一种名为提示对提示生成方法(P2P)的方法,通过进一步采用指令跟随技术来提炼指导性视觉提示,以实现综合可转移知识的发现,从而解决了这个问题。P2P的核心是从提示条件的视觉特征和文本指令中挖掘语义相关的指令,这些指令共享语义概念,然后通过学习的指令提示来反向校正视觉表示。这强制补偿缺失的视觉细节以及进一步消除跨模态差异,赋予未知领域泛化能力。通过广泛的实验结果,我们展示了P2P在实现优越性能方面超越了最先进的方法。
- 图表
- 解决问题本文旨在解决零样本学习中固定适应学习提示的问题,导致过度强调训练期间观察到的主要视觉特征,从而无法很好地推广到广泛的未见域。
- 关键思路本文提出了一种P2P生成方法,通过挖掘提示条件下的视觉特征和文本提示中的语义相关指令,然后通过学习的指令提示来逆转视觉表示,从而强制弥补缺失的视觉细节,消除跨模态差异,从而赋予未见域泛化能力。
- 其它亮点本文的亮点在于提出了一种P2P生成方法,通过挖掘提示条件下的视觉特征和文本提示中的语义相关指令,然后通过学习的指令提示来逆转视觉表示,从而强制弥补缺失的视觉细节,消除跨模态差异,从而赋予未见域泛化能力。实验结果表明,该方法在性能上优于现有最先进的方法。
- 近期的相关研究包括:'Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly','Transductive Multi-view Zero-shot Learning','Generalized Zero-Shot Learning via Synthesized Examples'等。
沙发等你来抢
去评论
评论
沙发等你来抢