- 简介本文研究的是组合图像检索(CIR)任务,旨在基于多模态查询(即参考图像及其相应的修改文本)检索目标图像。尽管之前的监督式或零样本学习范式都未能在时间消耗和检索性能之间取得良好的平衡,但最近的研究者引入了少样本CIR(FS-CIR)任务,并提出了一种基于预训练CLIP模型的文本反演网络来实现它。尽管该方法表现很有前途,但它存在两个关键限制:不充分的多模态查询组合训练和非鉴别性训练三元组选择。为了解决这两个限制,本文提出了一种新的两阶段伪三元组引导的少样本CIR方案,称为PTG-FSCIR。在第一阶段,我们采用掩码训练策略和先进的图像标题生成器,从纯图像数据中构建伪三元组,使模型能够获得与多模态查询组合相关的初步知识。在第二阶段,基于主动学习,我们设计了一种基于伪修改文本的查询-目标距离度量来评估每个未标记样本的挑战得分。同时,我们根据统计学中的3-$\sigma$规则提出了一种强大的基于顶部范围的随机抽样策略,以对预训练模型进行微调。值得注意的是,我们的方案是即插即用的,并且与任何现有的监督式CIR模型兼容。我们在三个公共数据集(即FashionIQ、CIRR和Birds-to-Words)上测试了我们的方案,分别在三个主干网上取得了最大的改进,分别为26.4%、25.5%和21.6%,证明了我们的方案的有效性。
- 图表
- 解决问题论文解决的问题是如何实现基于少量样本的组合图像检索任务,并提出了一种新的方法PTG-FS-CIR。这是一个新的问题。
- 关键思路PTG-FS-CIR方法包括两个阶段:第一阶段使用掩码训练策略和先进的图像标题生成器来构建伪三元组,以使模型获得有关多模态查询组合的基本知识;第二阶段基于主动学习,设计了一种基于伪修改文本的查询-目标距离度量来评估每个未标记样本的挑战得分,并提出了一种健壮的基于顶部范围的随机采样策略来微调预训练模型。与现有的监督CIR模型兼容。
- 其它亮点该方法在三个公共数据集(FashionIQ、CIRR和Birds-to-Words)上进行了测试,跨三个骨干网络进行了测试,最大改进分别为26.4%,25.5%和21.6%,证明了该方法的有效性。论文提出的方法是即插即用的,并且与任何现有的监督CIR模型兼容。
- 最近的相关研究包括:1)基于预训练模型的图像检索方法;2)使用主动学习的图像检索方法;3)少样本图像检索方法。
沙发等你来抢
去评论
评论
沙发等你来抢