Diverse and Tailored Image Generation for Zero-shot Multi-label Classification

2024年04月04日
  • 简介
    最近,零样本多标签分类因其能够在没有人工注释的情况下对未见标签进行预测的能力而受到了相当大的关注。然而,现有的方法通常使用已知类别作为未知类别的不完美代理,导致性能不佳。受到文本到图像生成模型在生成逼真图像方面的成功启发,我们提出了一种创新的解决方案:生成合成数据,构建一个明确针对未知标签的无代理训练的训练集。我们的方法引入了一种新颖的图像生成框架,用于生成未知类别的多标签合成图像,以进行分类器训练。为了增强生成图像的多样性,我们利用预训练的大型语言模型生成多样的提示。我们使用预训练的多模态CLIP模型作为鉴别器,评估生成的图像是否准确地表示目标类别。这使得自动过滤不准确生成的图像,保持分类器的准确性。为了精确有效地生成多标签对象,我们引入了基于CLIP分数的鉴别损失,以微调扩散模型中的文本编码器。此外,为了增强目标任务的视觉特征,同时保持原始特征的泛化和减轻由于微调整个视觉编码器而导致的灾难性遗忘,我们提出了一个受Transformer注意机制启发的特征融合模块。该模块有助于更有效地捕捉多个对象之间的全局依赖关系。广泛的实验结果验证了我们的方法的有效性,表明我们的方法在性能上明显优于现有的最先进方法。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决零样本多标签分类中使用已知类别作为未知类别的代理的问题,提出了一种生成合成数据的方法,以构建一个专门针对未知标签进行训练的训练集。
  • 关键思路
    本文提出了一种新颖的图像生成框架,用于生成未知类别的多标签合成图像,以进行分类器训练。为了增强生成图像的多样性,利用预训练的大型语言模型生成不同的提示,使用预训练的多模态CLIP模型作为鉴别器来评估生成的图像是否准确地代表目标类别,并提出了基于CLIP分数的判别性损失来优化文本编码器。
  • 其它亮点
    本文的亮点包括使用合成数据进行零样本多标签分类训练的创新方法,使用预训练的大型语言模型生成多样性提示的方法,以及使用预训练的多模态CLIP模型作为鉴别器进行自动筛选生成的图像。实验结果表明,本文的方法在多个数据集上均取得了显著的改进。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《Zero-shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly》、《Zero-shot Learning via Simultaneous Generating and Learning》、《Generative Adversarial Networks for Zero-Shot Learning》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问